• Nenhum resultado encontrado

Partie I. Problématique

1.4. Synthèse du contexte et objectifs de cette thèse

2

Comment évaluer la robustesse climatique des modèles pluie-débit ? .

La nécessité de bien choisir ses outils...

Calvin and Hobbes, 20/04/1991, Bill Watterson©

2.1. Méthodologie de tests et d’analyse

Les travaux conduits dans cette thèse portent sur la robustesse des modèles hydrologiques conceptuels dans un contexte de climat changeant. Notre objectif est d’apprécier la capacité d’extrapolation climatique des paramètres des modèles pluie-débit. Cette approche se place notamment dans le contexte des études d’impact du changement climatique, où des modèles calés sur une période historique sont utilisés dans des conditions climatiques différentes. Le principe de validation des modèles repose sur la comparaison des débits simulés avec des observations. Pour nos travaux, nous sommes donc contraints de travailler sur des données historiques, bien que la variabilité climatique sur les périodes instrumentées ne traduise pas nécessairement l’amplitude des changements de climat attendus.

Dans l’esprit de la discussion menée par Andréassian et al. (2009) sur l’évaluation des mo- dèles, nous avons élaboré une méthodologie de “crash test”. Nous cherchons effectivement à placer les modèles dans des conditions défavorables de transposition temporelle, avec de fortes différences entre les conditions de calage et d’utilisation pour étudier au mieux leurs limites.

Nous nous inspirons donc largement des tests proposés parKlemeš (1986) mais en généralisant l’approche pour tenter d’établir des relations entre les erreurs de modélisation et les différences qui caractérisent les périodes de calage et de validation.

2.1.1. Les outils de mesure de la robustesse des modèles

Le differential split-sample test (DSST) proposé par Klemeš (1986), permet une évaluation des modèles dans des conditions climatiques contrastées (exemples d’utilisation discutés dans la section 1.1.4). Son application sur un bassin versant comprend trois étapes :

1. des sous-périodes (souvent en nombre réduit) sont sélectionnées dans la série d’obser- vations disponible en fonction de leurs caractéristiques climatiques ou hydrologiques (ex. volumes moyens précipités, température de l’air, etc.) ;

2. un test de calage-contrôle est pratiqué entre les sous-périodes ainsi sélectionnées ; 3. les performances du modèle en contrôle sont comparées afin d’évaluer si elles évoluent

notablement avec les écarts climatiques entre les sous-périodes de calage et de contrôle.

Cette procédure, schématisée à la figure 2.1, a néanmoins deux défauts majeurs pour l’obten- tion de conclusions généralisables. Premièrement, elle nécessite de connaître à l’avance quelle caractéristique climatique risque de jouer un rôle limitant lors du transfert des paramètres du modèle. Si l’influence de différentes caractéristiques climatiques est étudiée, il est générale- ment difficile de comparer les résultats car les années sélectionnées pour ces évaluations varient avec la caractéristique climatique considérée (ex. constitution d’un couple chaud-froid, puis d’un couple humide-sec qui est différent). En reprenant les notations de la figure 2.1, si nous

étudions l’influence d’un écart de précipitation moyenne sur le transfert des paramètres, nous sélectionnerons des sous-périodesA1,B1,C1,D1, puis si nous recommençons en étudiant cette fois l’influence de la température de l’air nous sélectionnerons des sous-périodesA2,B2,C2,D2

vraisemblablement différentes des précédentes (la période la plus sèche n’étant pas nécessai- rement la plus chaude). Le deuxième défaut de l’approche est le nombre de tests de transfert souvent restreint, puisque seules deux ou trois périodes contrastées et indépendantes les unes des autres sont généralement identifiables. Cela limite les possibilités d’établir des conclusions générales et d’identifier de manière robuste le degré de transférabilité des paramètres.

11

12

13 12 13

123456789AB4AC8DCEF278B4C A534ABDA8B34

12314567829ABC

89634ABDA8B34AFA69C46AB4CAF64C

1 1 1 1

12314567829ABD 12314567829ABE

13

1 2

3

4

12314567829ABF

13

1 3 4 122 133 134 122 131 134 122 131 133

Figure 2.1.: Méthodologie de test de calage-contrôle SST et DSST

Les sous-périodes utilisées pour caler et valider le modèle peuvent être continues (ex. A et B) ou résulter d’une sélection d’années réparties sur la chronique (ex. C et D).

Selon le choix du modélisateur, les sous-périodes sélectionnées peuvent être continues ou consti- tuer un agrégat d’années hydrologiques n’étant pas nécessairement côte à côte. Cette seconde approche de ré-échantillonnage est communément appeléebootstrapet présente plusieurs avan- tages. D’une part, elle permet la constitution de sous-périodes plus extrêmes en regroupant par exemple toutes les années les plus sèches d’un côté et toutes les années les plus humides de l’autre. Dans le cadre du DSST, elle autorise ainsi des tests de transfert de paramètres entre des situations plus contrastées. D’autre part, ce ré-échantillonnage peut permettre de s’affran- chir des problèmes liés à des erreurs évolutives sur les entrées telles que la dérive d’une courbe de tarage ou l’enrichissement/appauvrissement d’un réseau de pluviomètres. Néanmoins, elle présente un inconvénient majeur lié au fait que les conditions d’humidité du bassin au début de chaque année ne sont pas identiques. En effet, les réserves d’eau stockées dans le sol (en surface et en profondeur) évoluent en fonction du climat et ne sont pas au même niveau après une année très sèche ou très humide. Cette mémoire du bassin versant doit théoriquement être prise en compte lorsque les conditions climatiques d’une période sont caractérisées. En effet, on imagine facilement qu’une année moyenne en termes de précipitations mais précédée d’une période de sècheresse sévère pourra se révéler plus extrême pour le bassin qu’une année sèche précédée d’années humides. Ainsi, la prise en compte de cette mémoire ne peut pas être négligée et devient alors très délicate lorsque la période à caractériser est un agglomérat d’années indépendantes.

2.1.2. Proposition d’une procédure de test

À notre connaissance, les procédures standards de split-sample (SST) et differential split- sample test (DSST) sont presque toujours utilisées pour conduire des tests ponctuels, en nombre limité. Pour le DSST, ces tests restent souvent focalisés sur l’étude d’impact d’une ou deux variables climatiques sur la transférabilité des paramètres d’un modèle. Afin de surmon- ter ces limites, nous proposons une généralisation de ces procédures, notre objectif étant de permettre le test de modèles hydrologiques sur un nombre et une variété de situations aussi grands que possible. Nous souhaitons considérer toutes les situations : aussi bien les transferts sous climat équivalents (type SST) que très contrastés (type DSST).

Principe

La procédure que nous proposons est illustrée à la figure 2.2 et se compose des étapes suivantes : 1. Une fenêtre glissante de longueur choisie est utilisée pour découper la chronique d’obser- vations disponible en sous-périodes. Cette fenêtre est déplacée d’une année hydrologique entre deux sous-périodes, les chevauchements entre périodes étant donc autorisés. Sur la figure 2.2, ces sous-périodes sont indiquées en gris foncé, tandis que les zones en gris clair correspondent au reste de la chronique disponible.

2. Le modèle hydrologique que l’on souhaite tester est calé sur chaque sous-période à l’aide d’une fonction objectif préalablement définie. On retient ainsi un jeu de paramètres θ par sous-période. À cette étape, n’importe quelle fonction objectif ou algorithme de calage peuvent être utilisés. Dans nos tests, nous opterons toutefois pour une procédure automatique de sélection des paramètres assurant une répétabilité de l’exercice.

3. Pour chaque sous-période de calage, le jeu de paramètres optimal est transféré afin de réaliser tous les tests possibles en validation sur les autres sous-périodes. Celles qui che- vauchent la sous-période de calage ne sont pas considérées pour maintenir le cadre strict du calage-contrôle entre périodes indépendantes. De plus, une simulation de référence est construite pour chaque sous-période en utilisant le jeu de paramètres optimisé sur celle-ci. Notons que le nombre de tests en contrôle n’est pas constant entre toutes les sous-périodes mais cela n’est pas problématique car tous les résultats seront analysés en même temps.

Chaque sous-période joue alternativement le rôle de période de calage (donneuse de para- mètres) ou de validation (receveuse de paramètres). Nous utiliserons donc par la suite les notations D et R pour distinguer les périodes concernées par le transfert. Par exemple, on notera ˆQR,k[θD] le débit simulé au pas de temps k de la sous-période receveuse R en utili- sant le jeu de paramètres θ, issu du calage sur la sous-période donneuse D. La construction

des sous-périodes de test se fait indépendamment de considérations sur leurs caractéristiques climatiques, celles-ci n’intervenant que plus tard lors des analyses des performances en vali- dation. Les deux étapes qui composent cette démarche de tests (phase de construction des périodes d’intérêt et phase de test du modèle) sont donc réalisées dans un sens opposé à la pratique habituelle puisque nous procédons ainsi : (a) tout d’abord, de nombreux tests en calage-contrôle sont effectués sans distinction sur les conditions de transfert des paramètres, (b) ensuite, les conditions de transferts sont étudiées et mises en face des performances du mo- dèle en validation pour déterminer a posteriori si un lien peut être établi entre les variations de qualité des simulations et un facteur climatique donné. À notre connaissance, une telle généralisation du split-sample test, où aucun choix préalable n’est fait sur les sous-périodes testées, n’a pas encore été utilisée sur un grand nombre de cas.

Nous avons intitulé cette approche le generalized split-sample test (GSST), par analogie aux dénominations de Klemeš (1986).

AA5AB5237BBAB12314567829A

11

12

13

14

15

16

17

18

19

11A

111

112

113

114 1

1 1!

1"

1#

1$

1%

1&

1' 1 1 1 1!

1"

11

12

13

14

15

16

17

18

19

11A

111

112

113

114

1 1

1

12

13

14

15

16

17

18

19

11A

111

112

113

114 1%

11

12

13

14

15

16

17

18

19

11A

111

112

113

114 1"

26789AB4CAC8DCEF278B4C A534ABDA8B34

AC7D36789A B4A224954

AC7D36789A B4A224954

AC7D36789A B4A224954

89634ABDA8B34AFA69C46AB4CAF64C 532CACDA34CAC8DCEF278B4CA79B2F49B964C

AA5AB5237BB7AB12314567829A AA5AB5237BBAB12314567829A

Figure 2.2.: Méthodologie de test de calage-contrôle généralisée GSST (dans cet exemple, une chronique totale de 18 ans est découpée en sous périodes de 5 ans)

Nombre de tests réalisables

Le nombre de tests de transfert (Ntests) réalisés pour chaque bassin est fonction de la longueur de la série d’observations (Lchro) et de la longueur choisie pour les périodes de calage et de contrôle (Lper). En vérifiant l’inégalité (assez logique) Lchro ≥ 2Lper, alors le nombre Ntests

peut être calculé par la formulation :

Ntests= (Lchro−2Lper+ 1)·(Lchro−2Lper+ 2) (2.1)

Une chronique longue de 18 années découpées en sous-périodes de 5 ans (tel qu’illustré sur la figure 2.2) permettra la réalisation de 90split-sample tests. Dans les tests présentés plus loin, nous disposons plutôt de chroniques de 30 ans que nous découpons en sous-périodes de 10 ans, ce qui permet 132 split-sample tests. Des périodes de mise en route sont couramment utilisées pour initialiser les états du modèle, les critères d’erreurs (en calage ou validation) n’étant pas calculés sur celles-ci. Dans le cadre de notre méthodologie, nous ne tenons pas compte de ces périodes d’initialisation dans la constitution des couples de tests, c.-à-d. deux périodes sont jugées indépendantes même si l’une d’entre elles chevauche la période de mise en route de l’autre. Cette longueur d’initialisation doit simplement être soustraite pour le calcul de Lchro

(ex.si la série d’observations comporte 30 années et que le modèle est initialisé sur une année, alors on considèrera Lchro = 29 pour le calcul de Ntests).

Avantages

La procédure GSST devrait permettre de surmonter les limites abordées précédemment : 1. Elle permet un nombre important de cas d’analyse, qui couvrent de façon continue

l’espace des écarts de climat existant dans la série d’observations. Ce grand nombre de tests devrait améliorer la robustesse des interprétations.

2. L’utilisation de périodes continues plutôt que discontinues comme dans les approches de bootstrap permet de limiter les effets des années intermédiaires dans l’analyse des résultats (cf.discussion section 2.1.1). Les caractéristiques de chaque période (ex. pluie, température) pourront être strictement estimées sur les mêmes pas de temps que les critères d’erreur.

3. Elle nous semble moins subjective puisqu’aucun choix de sous-période ou de caractéris- tique de climat étudié n’est fait a priori (c.-à-d. avant la réalisation des tests).

4. L’influence de n’importe quelle caractéristique climatique sur la robustesse du modèle peut être étudiée. En effet, toutes les configurations possibles (c.-à-d. tous les couples de périodes) sont testées et aboutissent à une liste unique de performances du modèle en validation. Lors de l’analyse de la robustesse des modèles face à un changement de climat, passer d’une variable climatique à une autre (ex. pluie → température) revient simplement à exprimer cette même liste de performances en changeant la référence choisie pour la visualisation. Notons que cette comparaison n’était pas possible dans l’usage courant du DSST puisque le panier de périodes de contrôle n’était pas constant.

Inconvénients

La méthodologie GSST est critiquable sur le point suivant : si le nombre de tests est forte- ment augmenté comparativement aux usages préalables du DSST, cela s’accompagne d’une forte redondance de l’information dans les résultats des tests puisque les recouvrements sont autorisés entre les périodes de validation. La procédureGSST est toutefois conforme au cadre strict du split-sample test original, puisque les sous-périodes composant chaque couple de calage-contrôle sont toujours indépendantes l’une de l’autre. Lors de l’élaboration de cette méthodologie, notre objectif fut de maximiser le nombre de tests en ne se privant d’aucun couple de sous-périodes indépendantes. En effet, ne pas autoriser les recouvrements risquerait dans certains cas d’écarter les couples de sous-périodes les plus contrastés, ou alors l’opération devrait être répétée et conduirait à faire de multiples analyses par bassin au lieu d’une seule dans la configuration proposée ici. Le choix a donc été fait de conserver toutes les périodes de calage disponibles même si elles se chevauchent entre elles1. En conséquence, nous devrons garder à l’esprit que les critères de corrélations pouvant être calculés dans nos travaux, le seront entre des points n’étant pas rigoureusement indépendants. Cela ne modifiera toutefois en rien la validité des conclusions, ce qui nous intéresse étant une appréciation générale sur l’existence de liens entre évolutions des performances et changements subis lors de transfert des paramètres.

2.1.3. Méthodes d’analyse des résultats

Cette section présente les techniques numériques et graphiques utilisées dans nos travaux pour évaluer la robustesse des modèles hydrologiques conceptuels face à un climat en évolution.

Critère de mesure de robustesse

Considérons un test de calage-contrôle où un jeu de paramètres θD est transféré d’une pé- riode D (période donneuse où le calage a été effectué) vers une période R (période receveuse utilisée pour le contrôle). Avec ces notations, le critèreRM SE d’erreur quadratique moyenne, le critère N SE de Nash et Sutcliffe (1970) et le critèreKGE proposé par Gupta et al.(2009) comme alternative au précédent, s’écrivent :

RM SEDR =

vu ut1

n ·

Xn k=1

QbR,k[θD]−QR,k

2

(2.2)

N SEDR = 1−

Pn k=1

QbR,k[θD]−QR,k

2

Pn k=1

QRQR,k

2 (2.3)

1. La procédure de découpage étant systématique, une très grande majorité des années auront le même niveau de redondance et il n’y a donc pas de poids plus forts sur certaines années (seules les quelques années aux extrémités de la chronique auront une redondance plus faible).

KGEDR = 1−q(ρkge−1)2+ (αkge−1)2+ (βkge−1)2 (2.4)

avec ρkge =rpearson(QbR[θD]QR) =

Pn k=1

QbR,k[θD]QbR[θD]

·(QR,kQR)

r n P

k=1

QbR,k[θD]QbR[θD]2

·

Pn k=1

(QR,kQR)2

αkge = σ(σ(QQbR[θD])

R) = EcartT ype(QbR[θD])

EcartT ype(QR) =

rPn k=1

QbR,k[θD]QbR[θD]2

r n P

k=1(QR,kQR)2 βkge = µ(µ(QQbR[θD])

R) = QbRQ[θD]

R =

Pn k=1

b

QR,k[θD]

Pn k=1

QR,k

QR,k est le débit observé au pas de tempskde la période R et ˆQR,k[θD] est le débit simulé correspondant en utilisant le jeu de paramètres θD calé sur la période D.

Analyser les résultats sous forme de critère de biais (ex. sur les volumes annuels mais aussi saisonniers ou mensuels) présente l’avantage notable de manipuler des valeurs adimensionnelles parfaitement comparables entre différentes périodes ou bassins versants. Dans leur étude de la stabilité temporelle des paramètres de leur modèle, Merz et al. (2011) représentent ainsi des critères de biais en calage et en contrôle sur le même schéma pour montrer que les tendances qu’ils observent sur les erreurs des modèles peuvent être reliées aux conditions de transfert des paramètres du modèle (cf.figure 1.3, page 14).

Cependant, lorsque des critères d’erreurs tels que le RM SE ou le N SE sont utilisés, cette comparaison devient plus délicate. Les valeurs RM SEDRouN SEDRobtenues pour diffé- rentes périodes de calage Dmais une unique période de simulationR peuvent être comparées, puisque les pas de temps où elles sont calculées sont strictement identiques. Néanmoins, le critère d’erreur quadratique est dépendant des volumes en jeu et aura ainsi tendance à être plus élevé pour les périodes (ou bassins) dont les débits sont plus importants. Le critère de Nash et Sutcliffe (1970) est quant à lui construit comme un rapport entre le carré des erreurs du modèle et la variance des débits observés. Dans certains cas, on peut considérer que les changements de variance ou volumes entre périodes ont un impact réduit sur la comparai- son des résultats de validation du modèle. On se rapproche des limites de validité de cette hypothèse lorsque le panier de périodes de calage/contrôle devient hétérogène en termes de conditions climatiques et de volumes écoulés. Ce problème devient encore plus marqué lorsque les résultats de bassins d’horizons divers sont regroupés pour l’analyse.

En conséquence, nous avons décidé de ne pas construire nos analyses autour de différences de critère N SE pour diagnostiquer l’influence des écarts de climat dans la transférabilité des paramètres de modèles pluie-débit. Nous avons préféré construire le critère de robustesse suivant (noté MRC pour Model Robustness Criterion) :

M R CDR= εDR

εRR −1 (2.5)

avecε un critère d’erreur qui sert de fonction objectif lors de la procédure GSST. Ce critère a été construit autour de l’idée d’une évaluation de la pertinence d’un jeu de paramètres comparativement à un jeu de référence optimal (issu d’un calage). εDR est un critère d’évaluation des erreurs sur la période R du modèle calé sur D (par exemple εDR= RM SEDR). εRR devrait quant à lui correspondre à la plus faible valeur de ε sur R avec le modèle considéré2. Comme εDR et εRR sont calculés sur les mêmes pas de temps, ils peuvent être comparés pour constituer le critère adimensionnel proposé ici. L’interprétation des valeurs deMRC est relativement simple. Ce critère ne prend théoriquement que des valeurs positives. Il vaut 0 lorsque le jeu de paramètres optimisé sur la périodeDpermet une simulation de qualité égale à celle obtenue par calage surR. Ensuite, plus sa valeur est élevée, moins le jeu de paramètres θD est valable pour simuler les débits de la périodeR. Par exemple, une valeur de MRC de 1.0 signifie une augmentation d’erreur relative de 100% (soit un doublement de l’erreur) liée au fait d’utiliser un jeu de paramètres non-optimal (erreur estimée au travers de ε). Par la suite, ces valeurs seront souvent exprimées sous forme de pourcentages. On notera enfin qu’une valeur négative deMRC signifierait qu’un jeu de paramètres transféré d’une autre période serait plus pertinent qu’un jeu de paramètres calé sur la période cible. Cela indiquerait une défaillance de la méthode d’optimisation des paramètres surR, l’optimum global n’y ayant pas été identifié correctement.

Le critère MRC proposé ici permet de résoudre une majorité des difficultés mentionnées pré- cédemment concernant le travail de comparaison de performances sur des sous-périodes très variées. La seule condition nécessaire pour permettre la comparaison de MRCsissus de condi- tions diverses est que le rapport εDR/εRR soit indépendant des caractéristiques de la période et/ou du bassin concernés (en termes de volumes ou de variabilité). Par exemple, ε = N SE ne peut pas être utilisé puisque le terme de variance au dénominateur ne disparaît pas dans le calcul du rapport εDR/εRR. À l’inverse, on pourra utiliser ε = RM SE, ε = 1−N SE, ou ε = 1−KGE. On remarquera d’ailleurs que lorsque le critère MRC est construit autour d’une erreur quadratique, alors 2-MRC s’apparente à un critère de type N SE dans lequel le modèle de référence au dénominateur a été modifié (Seibert, 2001; Lerat et al., 2012). Dès lors que le critère ε remplit exigence que nous venons d’évoquer, les MRCs peuvent être uti- lisés pour étudier la transférabilité des jeux de paramètres dans des conditions contrastées.

2. Une vigilance est toutefois requise sur le choix du critère d’erreur ε car s’il conduit à des valeurs trop proches de 0 dans les situations optimales, la division par εRR sera problématique.