O contributo dos documentos históricos para o ensino da História

PARTE II A INVESTIGAÇÃO

3. O contributo dos documentos históricos para o ensino da História

Comme nous l’avons évoqué ci-dessus, nous avons donc choisi de considérer les courbes de tarage non comme une simple équation dont nous désirons déterminer les coefficients, mais bien comme un modèle hydrologique mettant en relation les hauteurs d’eau et débits d’une section, avec ses incertitudes et ses contraintes. En effet, ni les mesures de débits et de hauteurs ni la construction même des courbes de tarage ne peuvent se soustraire aux erreurs qui y sont associées (Herschy, 2002), et de telles erreurs doivent impérativement être prises en compte lors de la détermination de la relation hauteur-débit. C’est pour ces raisons que nous nous sommes penché sur l’utilisation d’algorithmes d’optimisation globale afin de déterminer l’équation des courbes de tarage du bassin amazonien. Nous présenterons ici les principales caractéristiques de ces algorithmes d’optimisation et détaillerons le fonctionnement de l’algorithme choisi.

5.2.1. Algorithmes d’optimisation

Les algorithmes d’optimisation permettent le calage d’un modèle hydrologique au travers de la minimisation ou maximisation d’une fonction objectif. Ils doivent donc permettre de détermi-ner le meilleur jeu de paramètres pour que le modèle considéré reproduise au mieux la réalité (représentée par des observations fournies à l’algorithme) ou une meilleure région, appelée région de Pareto.

5.2.1.1. Généralités

Comme nous l’avons évoqué précédemment, les modèles hydrologiques contiennent souvent des paramètres qui ne sont pas mesurables et qui nécessitent l’utilisation de procédures d’étalonnage manuelles, comme la méthode essai-erreur. Ces méthodes sont coûteuses en temps et requièrent le plus souvent un utilisateur expérimenté. Du point de vue statistique, le modèle peut s’écrire de la sorte :

y=η(ζ|θ) (5.5)

où yˆest le vecteur des prédictions du modèle, ζ sont les variables d’entrée et θ le vecteur de paramètres à calibrer. Le vecteur peut exister dans _Rnou dans un sous-ensemble de _Rn, auquel cas le problème d’optimisation est dit contraint. Le but du modèle est donc de faire varier θ de manière à minimiser les résidus, souvent en utilisant la méthode des moindres carrés ordinaires (M CO=P

e_j(θ)²). L’existence de minima locaux dans de nombreux problèmes d’optimisation a poussé Duan et al. (1992) à développer un algorithme robuste, le SCE-UA (Shuffled Complex Evolution), permettant la détermination du meilleur jeu de paramètres d’un modèle. D’après Duan et al. (1992), les cinq principales caractéristiques qui compliquent les problèmes d’opti-misation sont : la présence de plusieurs régions de convergence, l’existence de plusieurs minima locaux dans chaque région, les dérivées discontinues des réponses de surface, des interactions non linéaires entre les paramètres, et une surface de réponse non convexe. Les algorithmes d’optimisa-tion globale tels que le SCE-UA diffèrent donc des algorithmes d’optimisad’optimisa-tion à recherche directe par la stratégie adoptée pour l’évolution des points dans la direction de la meilleure solution, ce qui leur permet de résoudre plus efficacement les problèmes évoqués par Duanet al.(1992). Pour

Domaine Qualité Régions d’attraction

-Optimums

Converger vers l’optimum global en présence de nombreuses régions d’attraction

Ne pas être piégé par des puits ou sauts dans la surface de la fonction objectif Sensibilité

-Paramétrage

Être robuste en la présence des paramètres interdépendants et à sensibilité variable Ne pas reposer sur la disponibilité d’une formulation explicite de la fonction objectif ou

des dérivées

Formulation Être capable de manipuler des paramètres à haute dimensionnalité

Table5.1. – Qualités requises pour un algorithme d’optimisation globale (Source : adapté de

Duanet al.(1994))

Duan et al. (1994), un algorithme d’optimisation globale doit posséder les propriétés exposées dans le tableau 5.1.

5.2.1.2. Optimisation globale

Un problème d’optimisation globale revient à minimiser une fonction objectiff =f(x) sous un ensemble de contraines telles que xǫS (S est alors le domaine réalisable). Les difficultés de tels problèmes sont que bien souvent la fonction f n’admet pas un seul minimum mais plusieurs minima locaux. La méthode du simplexe non linéaire (aussi appelée de Nelder-Mead) est la méthode d’optimisation locale sans contraintes la plus utilisée. Elle est basée sur l’évolution d’une enveloppe convexe (simplexe) au moyen d’étapes de réflexion, d’expansion ou de contraction (du pire point, au sens de la FO, appartenant à cette enveloppe). Cependant, de telles méthodes ne sont pas très robustes, et peuvent par exemple converger vers un minimum local ou ne pas converger du tout (voir fig. 5.4).

La fig. 5.4 illustre l’importance pour la méthode du simplexe de Nelder-mead de bien définir le simplexe de départ afin de parvenir au bon résultat. Nous pouvons distinguer, parmi les nombreuses méthodes d’optimisation globale permettant de déterminer le minimum global d’une fonction, les méthodes déterministes et les stochastiques.

Lesméthodes déterministes reviennent à résoudre un système de n équations à n inconnues :

∂f

∂x_i⁽^x¹^{, ..., x}ⁿ^{) = 0} (5.6) où f est la fonction à optimiser et (x₁, ..., x_n) les variables. Ces méthodes nécessitent une fonction dérivable sur le domaine d’étude. Les méthodes du gradient (et ses variantes) et de Gauss-Seidel (Nougier, 1987) sont parmi les plus classiques. Dans la méthode du gradient, à chaque itération un déplacement est effectué du point courant opposé au plus fort gradient. Ces méthodes déterministes se caractérisent par un temps de calcul augmentant exponentiellement avec le nombre de variables, une recherche laborieuse du pas optimum et des problèmes de convergence lorsque, par exemple, le minimum se trouve au fond d’une vallée étroite.

Lesméthodes non déterministes se basent sur des tirages aléatoires de la population permet-tant une exploration plus exhaustive de l’espace de recherche. Parmi ces méthodes, citons les méthodes de Monte Carlo, les algorithmes évolutionnaires et le recuit simulé. Dans les méthodes de Monte Carlo, la FO est évaluée à un grand nombre de points dont la position initiale dans l’espace est choisie de façon aléatoire. Dans la méthode de recuit simulé (simulated annealing), par analogie aux processus de recuit utilisés en métallurgie pour minimer l’énergie utilisée, le déplacement à partir du point de départ est effectué de manière aléatoire. Si le nouveau point ainsi obtenu n’entraîne pas une diminution de l’énergie du système (FO supérieure à la FO pré-cédente), il est accepté avec une probabilité p = e⁻^△T^E, où △E est la variation de la fonction énergie etT est une température qui décroît. Ce critère est appelé critère de Metropolis. Dans ce cas, c’est l’acceptation d’une « mauvaise » solution qui permet d’assurer une bonne exploration

(a) Un minimum (b) Divergence (pas de minimum)

Figure 5.4. – Cas d’optimisation par méthode du simplexe de Nelder et Mead. Optimisation

de z = f(x, y) avec z possédant un minimum (a), pas de minimum (b) et deux minima (c et d) sur le domaine (Source : www.jakubkonka.com)

de l’espace de solution. Les algorithmes évolutionnaires reposent, quant à eux et par analogie avec l’évolution naturelle, sur une population initiale d’individus soumis, au fil des générations (itérations dont le nombre dépend des critères choisis) à divers opérateurs génétiques (mutations aléatoires, inversions, croisements, etc.) et à une sélection, les plus faibles étant éliminés. Le ou les individus restants sont le résultat recherché. Ces différentes méthodes stochastiques ont la particularité de pouvoir présenter des résultats différents à chaque exécution, bien qu’initialisées dans le même état.

5.2.1.3. Et l’hydrologie dans tout ça ?

L’optimisation des modèles hydrologiques se heurte très fréquemment à des problèmes tels que la présence de multiples minima et des dérivées discontinues. Alors que de nombreux efforts ont été faits ces dernières années pour développer des procédures d’étalonnage automatique telles que le MOCOM-UA (procédure choisie pour le calage du MGB-IPH) et le SCE-UA, beaucoup moins d’attention a été portée à l’évaluation par ces méthodes des incertitudes sur les paramètres. Ainsi, les méthodes traditionnelles d’étalonnage, à l’instar du SCE-UA (Duan et al., 1992) qui mélange les forces de la procédure du simplexe de Nelder et Mead (1965) à l’évolution compétitive (Holland, 1975) et au mélange des complexes pour déterminer un jeu de meilleurs paramètres, ne

permettent pas de relier les valeurs des paramètres obtenus après étalonnage à des caractéristiques mesurables sur le terrain (Duan et al., 1992; Vrugtet al., 2003).

Il a été démontré que les méthodes de Monte Carlo par chaînes de Markov (MCMC, Mar-kov Chain Monte Carlo), et en particulier l’algorithme de Metropolis-Hastings, étaient efficaces, même en présence de distributions complexes, pour estimer l’incertitude sur les paramètres ré-sultant de l’optimisation d’un modèle hydrologique (Kuczera et Parent, 1998). Cependant, ces méthodes ont également montré qu’en l’absence d’une quantité conséquente d’informations a priori, pouvant mener à un mauvais choix de la densité de probabilité a posteriori, la conver-gence tendait à être beaucoup plus lente. C’est en raison de ces constatations que Vrugt et al.

(2003) se sont penchés sur le développement d’un échantillonneur MCMC permettant l’ajuste-ment de la loi stationnaire au sein même d’une chaîne.

5.2.2. L’algorithme SCEM-UA

Le SCEM-UA (Shuffled Complex Evolution Metropolis algorithm) a été développé dans l’op-tique de profiter des forces du SCE-UA tout en permettant une convergence plus rapide vers la loi stationnaire. Nous en décrivons les étapes dans la suite de ce chapitre.

5.2.2.1. Stratégies d’optimisation et d’évolution

L’algorithme SCEM-UA débute l’optimisation par la définition d’une population initiale. Cette population initiale, dont la taille est définie au préalable par l’utilisateur, est aléatoirement répartie dans l’espace de recherche. Cette répartition aléatoire assure qu’aucune zone de l’espace ne sera privilégiée. La fig. 5.5 illustre la répartition des points (a,b,Z₀) de la population initiale dans l’espace de recherche.

0 200 400 600 800 1000 1 1.5 2 2.5 3 Coefficienta Coefficient b (a) 0 200 400 600 800 1000 −100 −80 −60 −40 −20 0 20 Coefficienta Coefficient Z⁰ (b) 1 1.5 2 2.5 3 −100 −80 −60 −40 −20 0 20 Coefficientb Coefficient Z⁰ (c)

Figure 5.5. – Répartition de la population initiale à l’intérieur de l’espace de recherche

Pour chaque jeu de paramètres (dans le cas de l’optimisation des courbes de tarage, ce sont en réalité des triplets), la probabilité a posteriori est calculée au travers d’un schéma bayésien d’inférence (Thiemann et al.(2001); Box et Tiao (1973)). Cette probabilité a posteriori s’écrit :

p(θ⁽^t⁾|y)α^hM(θ⁽^t⁾ⁱ⁻

1 2N

(5.7)

Au contraire des statistiques classiques, qui considèrent que les paramètres du modèle sont inconnus mais fixes, l’inférence bayésienne associe à ces paramètres une fonction densité de probabilité (PDF,Probability Density Function) qui représente les croyances probabilistiques sur les paramètres au regard des observations. La probabilité a posteriori p(θ⁽^t⁾ |y est fonction de

la PDF a priori et de la fonction de vraissemblance décrite par Box et Tiao (1973) : L(θ⁽^t⁾|y) =exp  −¹ 2 X e(θ(t) σ !2  (5.8)

L’informationa priori consiste en un intervalle de recherche (limites hautes et basses) et d’une PDF uniforme dans cet intervalle (voir aussi fig. 5.8). Une fois la PDF a posteriori déterminée à partir des équations 5.7 et 5.8, l’algorithme de Metropolis-Hastings (Metropolis et al., 1953; Hastings, 1970) génère un nouveau candidatθ⁽^t⁺¹⁾et la fonction stationnaire associéez. Dans la chaîne de Markov ainsi générée, θ⁽^t⁺¹⁾ dépend uniquement de θ⁽^t⁾ et non de θ⁽⁰⁾, θ⁽¹⁾,... θ⁽^t⁻¹⁾. La PDF de ce nouveau candidat est évaluée et Ω = ^p⁽^θ⁽

t+1)|y)

p(θ(t)|y) est calculé, ainsi qu’un marqueur aléatoire Z (Zǫ[0,1]). SiΩ>Z, le candidat est accepté. Sinon, le candidat est rejeté et la chaîne reste dans la même position, soit θ⁽^t⁺¹⁾ =θ⁽^t⁾. Cette évolution de la séquence se fait à l’intérieur de chaque complexe C^k.

5.2.2.2. Étape par étape

1. Initialisation : création de la population initiale aléatoirement distribuée dans l’espace de recherche ; exécution du modèle pour chaque jeu de paramètres de cette population ; calcul de la PDFa posteriori par analyse bayésienne.

2. Séparation des séquences : partition de la population en complexes ; dans chaque complexe, initialisation d’une séquence avec comme point de départ le point ayant la plus haute PDF

a posteriori.

3. Évolution : création d’un nouveau candidat dans chaque séquence, à partir de la moyenne des points du complexe et de la structure de covariance entre ces points ; test du critère Metropolis pour savoir si le candidat est accepté ; le nouveau candidat remplace un point aléatoire à l’intérieur du complexe ; formation de nouveaux complexes par un processus de mélange.

4. Test de convergence : finalement, le critère de convergence de Gelman et Rubin (1992) est utilisé pour déterminer si les PDFa posteriori ont convergé ou non vers la loi stationnaire ciblée.

Les fig. 5.6 et 5.7, tirées de Vrugt et al. (2003) illustrent les différentes étapes de l’algorithme. L’algorithme SCEM-UA se présente sous la forme de nombreuses feuilles de calcul MATLAB, facilement modifiables afin d’adapter l’algorithme à notre configuration.

5.2.3. Conclusion

Nous avons pu voir que les algorithmes d’optimisation globale, et tout particulièrement le SCEM-UA, sont adaptés à la résolution de problèmes complexes d’hydrologie. La capacité du SCEM-UA à déterminer un jeu de meilleurs paramètres ainsi qu’à estimer l’incertitude sur les paramètres constitue un réel apport en comparaison des nombreux autres algorithmes existants.

No documento Fontes epistolográficas para o ensino da história e geografia de Portugal (páginas 53-57)