• Nenhum resultado encontrado

niveau 2 à 1,125°. En effet, le score CRPSS évalué pour le bassin de la Petite Saône est plus faible lorsque le niveau 2 est appliqué à 1,125° (cas 2,5°/1,125° dans le Tableau 4.9) que lorsque les deux niveaux sont appliqués à 2,5° (cas 2,5°/2,5°).

Tableau 4.9 : Performances (CRPSS (%)) obtenues à l'issue de la seconde sélection sur le domaine optimal, lorsque l'analogie est faite à 2,5° aux deux niveaux (2,5°/2,5°), à 2,5° au premier et à 1,125° au second niveau (2,5°/1,125°), et à 1,125° aux deux niveaux (1,125°/1,125°).

2,5°/2,5° 2,5°/1,125° 1,125°/1,125° G max (%)

Doubs 51,38 51,61 52,13 1,54

Petite Saône 50,82 50,78 51,45 1,28

Saône Intermédiaire 48,35 49,12 49,46 2,15

Ensemble des sous-bassins 50,19 50,5 51,01 1,65

Finalement, contrairement à ce que nous pouvions nous attendre, la recherche de l'analogie sur les champs définis à résolution 1,125° au lieu de 2,5° n'entraîne pas de gain substantiel de performance.

approfondie, des valeurs aberrantes d'humidité ont été détectées dans l'archive ERA1, que ce soit à résolution 2,5° ou à résolution 1,125° : certaines valeurs sont inférieures à 0 % et d'autres sont supérieures à 100 %. Les valeurs irréalistes d'humidité détectées à 1,125° ont ensuite été caractérisées. Les anomalies négatives d'humidité sont finalement assez peu nombreuses, en revanche les anomalies positives représentent une proportion non négligeable. Nous avons cherché à corriger ces valeurs, mais aucune solution simple et objective ne s'est révélée efficace pour la suite de notre travail. Cette analyse est détaillée dans Ben Daoud et al. (2009a) (cf. annexe 2).

Enfin, nous avons étudié la sensibilité de la méthode de référence au choix de l'archive de réanalyses, d'abord en évaluant les performances obtenues avec les deux archives ERA et NNR à résolution 2,5°. Nous en avons profité pour ré-optimiser les nombres N1 et N2 d'analogues à sélectionner, qui s'élèvent à 70 et 25 lorsque l'archive ERA est utilisée, et 80 et 25 lorsque l'archive NNR est utilisée. Cette analyse de sensibilité a finalement montré qu'en dépit des valeurs aberrantes contenues dans l'archive ERA, l'utilisation de cette dernière conduisait à de meilleures performances que celle de l'archive NNR, que ce soit au premier ou au second niveau de sélection. Toutefois nous ne pouvons quantifier l'impact de la présence d'anomalies d'humidité sur les performances de prévision. Les résultats de cette étude ont été présentés à une conférence et dans un article (Ben Daoud et al., 2008b ; Ben Daoud et al., 2009c) (cf. annexes 3 et 4).

Ensuite nous avons étudié la sensibilité de la méthode de référence à la résolution des champs des variables d'analogie extraits de l'archive ERA. Selon Bontron (2004), l'usage d'une archive possédant une résolution de 1°x1° pour les variables du second niveau pourrait améliorer la qualité des prévisions. Cependant, nous avons constaté que le gain de performance s'avère peu significatif lorsque les variables des deux niveaux de sélection sont définies à résolution 1,125°. Ce résultat pourrait s'expliquer par le fait que les données des réanalyses ERA ont été générées à résolution 1,125°. Ainsi une partie du gain apporté par cette meilleure résolution est déjà obtenue lorsque les champs sont définis à 2,5°. C'est notamment pour cette raison que les performances sont plus élevées lorsque l'archive ERA est utilisée au lieu de l'archive NNR. En fin de compte, la résolution 2,5° des champs météorologiques contenus dans l'archive ERA semble suffisante pour rechercher des situations analogues. Ainsi nous utiliserons des variables d'analogie définies à 2,5° pour développer l'algorithme de prévision, quitte à employer la résolution 1,125° pour certaines variables lorsque la phase de développement sera achevée.

A l'issue de cette analyse exploratoire des bases de données, nous avons décidé de retenir les archives suivantes pour le développement de la méthode d'analogie :

– archive pluviométrique : SAFRAN, puisque sa longueur (environ 34 ans en début de thèse) est bien supérieure à celle de l'archive MF/CNR (12 ans), et les cumuls 1 Pour information, le problème a été posé au CEPMMT, et cela proviendrait du système d'analyse (communication P.

Bechtold). La nouvelle génération de réanalyses (ERA-Interim et ERA_extended, cf. 2.2.1.3) ne devrait plus contenir d'anomalies d'humidité.

journaliers semblent cohérents avec ceux de l'archive MF/CNR ; – archive de variables d'analogie : ERA, étant donné que :

• cette archive est plus riche ;

• les performances de la méthode A0 obtenues avec cette archive sont un peu plus élevées qu'avec l'archive NNR malgré les valeurs aberrantes d'humidité ;

• et les champs sont disponibles à plus haute résolution (1,125°).

Finalement, la période sur laquelle l'algorithme sera développé s'étend du 01/08/1972 au 30/08/2002, les variables d'analogie potentielles pouvant être utilisées à quatre instants différents (00h, 06h, 12h et 18h TU).

Développement de la méthode de prévision par analogie

101

L'objectif principal de cette partie est d'améliorer les performances de prévision de l'algorithme A0 de sélection d'analogues, construit par Bontron (2004) et qui nous servira de point de départ. Bien que cette méthode soit déjà performante sur les grands bassins français, nous tenterons de l'améliorer en tenant compte de la climatologie de ces bassins, notamment en caractérisant les fronts, qui sont responsables de la plupart des événements pluvieux sur nos secteurs d'intérêt. Pour y répondre, deux approches complémentaires sont possibles :

i) Le développement. Il s'agit d'introduire de nouvelles variables ou de nouveaux critères d'analogie. Cela peut notamment aboutir à la création d'une nouvelle étape de sélection d'analogues.

ii) L'optimisation. Cette voie d'amélioration suppose les familles auxquelles les variables d'analogie appartiennent et les critères d'analogie déjà fixés. Le travail consiste alors à en optimiser les paramètres : domaine d'analogie (taille, forme, localisation géographique), heures et niveaux de mesure des variables d'analogie, nombres d'analogues à sélectionner (variabilité des nombres par exemple).

Dans le cadre de cette thèse, nous avons décidé d'adopter la première approche en nous inspirant dans un premier temps du comportement du prévisionniste en météorologie.

Lorsqu'il débute son activité, son premier réflexe est d'analyser la situation synoptique, c'est- à-dire de localiser les centres d'action qui seront a priori responsables de phénomènes tels qu'un front pluvieux, des cellules orageuses, des chutes de neige, etc. En outre, le prévisionniste s'intéresse à d'autres éléments secondaires susceptibles de favoriser le développement de ces phénomènes : convergence des vents, contraste de masses d'air, anomalies et advection de tourbillon1, énergie convective, etc. Nous nous efforcerons ainsi, dans le cadre de ce travail, à rendre objective l'analyse du prévisionniste, qui par nature est subjective. Cette tâche peut paraître intuitive pour un expert, mais elle n'en est pas moins difficile à formaliser tant la subjectivité de l'analyse est forte. La première étape de notre travail sera d'identifier les variables descriptives d'une situation météorologique. Selon notre expertise, ces variables jouent un rôle dans la formation et dans l'évolution des systèmes précipitants. Nous effectuerons ensuite une série de tests afin de rendre la méthode de prévision plus utile, et donc plus performante. Dans un second temps, nous adopterons la 1 Le lecteur curieux de connaître la définition de cette variable se reportera au chapitre 5 (section 5.1.1.2).

103

seconde approche pour les étapes de sélection de la méthode de référence.

A chaque étape du développement, la performance sera mesurée en termes de gain de performance G d'une méthode A par rapport à une méthode B, tel que nous l'avons défini dans la partie I (section 3.1.3). Le bassin de la Saône, présenté dans la partie I (section 2.1.1), servira de bassin test pour mener les travaux de développement. Le bassin de la Seine quant à lui servira de bassin test pour « valider » les méthodes développées. Sauf avis contraire, le gain G indiqué au cours des développements sera évalué pour l'ensemble des sous-bassins.

Dans le cadre du développement de l'algorithme de sélection, nous nous affranchirons des erreurs de prévision des variables d'analogie que peut faire un MNP. Nous nous placerons ainsi dans un contexte de prévision parfaite, comme nous l'avions fait lors de l'étude de sensibilité au choix de l'archive de réanalyses. Toutes les situations cibles ne sont donc prévues par un MNP, mais directement tirées des réanalyses ERA.

Choix d'une période de calibration et d'une période de validation

Au cours de chaque phase du développement de la méthode, nous chercherons à valider les résultats que nous aurons obtenus sur un échantillon de situations cibles indépendant de celui utilisé pour le développement. Il nous faut donc choisir une période cible pour la calibration de l'algorithme, et une autre pour la validation. La période commune aux périodes couvertes par les archives ERA et SAFRAN est d'environ 30 ans (01/08/1972-30/08/2002). Nous avons choisi une durée de 25 ans pour calibrer l'algorithme et une durée de 5 ans pour le valider.

La démarche intuitive consiste à conserver les cinq dernières années pour la validation de l'algorithme. Mais dans ce cas, si un changement était détecté dans nos données (dû à un changement dans les appareils de mesure, à la procédure pour la construction des réanalyses ou même à un changement climatique), un biais pourrait apparaître dans les résultats. De plus, l'algorithme étant validé sur un échantillon de situations cibles relativement restreint, la climatologie de ces situations pourrait avoir une incidence sur les résultats si elle diffère de celle des situations de la période de calibration.

Afin de nous affranchir de ces problèmes éventuels, nous avons décidé de choisir astucieusement les deux sous-périodes. Nous avons décidé de tirer une année tous les cinq ans pour rendre la validation homogène. Notre période couvrant environ 30 ans, dix choix sont possibles : les périodes de validation dont la première et la dernière année sont 1972 et 1992, 1973 et 1993, 1974 et 1994, … , et 1981 et 2001. Les dix couples possibles de périodes de validation et de calibration ont ainsi été considérés. Pour chacun d'entre eux nous avons évalué, pour le bassin de la Saône, les performances (CRPSS) moyennes obtenues sur la période de calibration et sur la période de validation (figure suivante a)).

L'homogénéité serait parfaite si les deux courbes se superposaient. Le score CRPSS calculé sur les différentes périodes de calibration varie peu, contrairement à celui calculé sur les périodes de validation. Ce résultat s'explique par la faible longueur de la période de

validation, rendant ainsi le résultat fortement dépendant des années choisies. La différence la plus faible de scores CRPSS entre les deux sous-périodes est obtenue pour la période de validation dont la première année est 1978. De plus, nous nous sommes assurés que la climatologie des pluies est la même au cours des périodes de calibration et de validation. Pour ce faire, nous avons calculé des statistiques pour chacun des bassins et au cours des périodes de validation (débutant par l'année 1978) et de calibration associée, et au cours de la période totale. Ces statistiques sont la proportion de jours secs (cf. tableau suivant) et les quantiles de pluie non nulle PNN10 à PNN90. Pour ces derniers, les résultats sont similaires pour les trois sous-bassins. L'illustration représentée par la figure b) est valable ici pour le bassin du Doubs.

a) Evolution des performances (CRPSS) moyennes obtenues sur les périodes de calibration et de validation, en fonction de la première année de la période validation. b) Comparaison des quantiles au

non-dépassement de pluie non nulle d'ordre 10 à 90% calculés sur les périodes de validation et de calibration ainsi que sur la période totale, pour le bassin du Doubs, lorsque la période de validation

débute en 1978.

Proportion (%) de jours secs calculée pour chaque sous-bassin et sur les périodes de validation (1978, 1983, 1988, 1993, 1998), de calibration (1972-2002 sans les années de la période de validation), et sur la

période totale.

Sous-bassin Période cible

Validation Calibration Totale

Doubs 33,3 32,8 32,9

Petite Saône 35,3 35,8 35,7

Saône Int. 38,3 36,5 36,8

Les différences obtenues entre la période de validation débutant en 1978 et la période de calibration correspondante ne sont pas significatives, avec une proportion de jour secs qui ne diffère pas de plus de 1,5 % entre les deux sous-périodes et la période totale. Les quantiles au-non dépassement sont également semblables (figure b), ce qui laisse transparaître une certaine homogénéité dans l'archive pluviométrique.

Pour les travaux de développement que nous entreprendrons dans cette partie, nous allons donc travailler sur la période de calibration 1972-2002 dont les années 1978, 1983, 1988,

1993 et 1998 sont exclues. En phase de calibration, les situations cibles et candidates sont extraites de la période de calibration ; tandis qu'en phase de validation, les situations cibles sont extraites de la période de validation et les situations candidates de la période de calibration. Cette procédure est décrite par la figure suivante :

Périodes dans lesquelles sont extraites les situations cibles et candidates en phase de calibration et en phase de validation.

d'analogie potentielles

Les variables météorologiques produites dans les réanalyses sont nombreuses. Elles ne sont pas toutes indispensables pour décrire les phénomènes physiques responsables de la formation des précipitations. Un tri préliminaire appuyé par notre expertise et notre expérience de prévisionniste, nous a permis de retenir les variables qui nous semblent les plus informatives pour décrire une situation météorologique. Certaines sont liées à d'autres par des relations physiques et mathématiques. Or notre objectif est de développer la méthode de prévision par analogie en introduisant de nouvelles variables. Si ces dernières sont liées à une autre variable déjà utilisée dans notre méthode de référence, leur apport ne sera probablement pas substantiel. Nous chercherons par conséquent à les écarter des autres variables d'analogie potentielles.

L'objectif de ce chapitre est donc d'analyser les liaisons entre les variables d'analogie potentielles. Dans un premier temps, nous présenterons ces variables en donnant leur définition et éventuellement leur mode de calcul afin de permettre au lecteur de comprendre leur rôle et leur intérêt en prévision météorologique. Elles peuvent être séparées en deux groupes : les variables brutes, directement extraites des réanalyses ; et les variables élaborées qui, comme leur nom l'indique, sont construites à partir d'une ou plusieurs variables brutes. Les liaisons entre les variables seront ensuite analysées. Cette analyse nous permettra finalement d'écarter les variables les plus liées aux variables de la méthode de référence A0 (géopotentiels à 500 et 1000 hPa, humidité relative à 850 hPa et quantité d'eau précipitable). Nous avons choisi des variables d'analogie potentielles sans tenir compte de leur prévisibilité opérationnelle. En effet, l'intérêt d'utiliser des variables peu robustes est assez limité. Dans un futur relativement proche, nous pouvons espérer une amélioration de la prévision de certaines variables. Pour le moment, nous nous en affranchissons et nous retiendrons les variables qui semblent informatives et descriptives d'une situation météorologique.

107