• Nenhum resultado encontrado

1.3 Évaluation d’ensemble

1.3.5 Diagramme de rang

Le diagramme de rang, développé parAnderson [1996], Talagrandet al.[1999] etHamill et Colucci [1997], est un moyen visuel qui permet de comparer la distribution de deux variables aléatoires : la première est estimée par le système de prévision, la seconde correspond à la cible observée.

Généralités

Soit X =(X1,X2,...,Xi,...,Xn1,Xn) une suite de n variables aléatoires indépendantes et identiquement distribuées. SoitY la variable aléatoire correspondant à la cible considérée. On suppose ici que les XietY suivent la même loi de probabilité et que l’ensemble desXi est rangé

36

PHYSIQUE ET MODÉLISATION DE LA QUALITÉ DE LAIR, INCERTITUDES ET ENSEMBLE DE PRÉVISIONS

—X1<X2<Xi<Xnpar exemple.

On peut alors montrer (voir la démonstration plus loin) que : E[P(Y≤Xi)]= i

n+1. (1.18)

On peut aussi montrer que :

E[P(Xi1<Y ≤Xi)]= 1

n+1. (1.19)

On introduit les valeurs yetxiqui sont des réalisations des variables aléatoiresY etXi. Ces valeurs sont données par une observation et l’ensemble des prévisions — des concentrations en pic d’ozone pour une date et une station données, par exemple. La construction d’un diagramme de rang se fait en comptant le nombre d’observations d’un rang donné. Un rang correspond à la position de l’observation yparmi les xi rangés, ou encore au nombre de xi inférieurs à y. On construit le diagramme de rang ainsi :

1. Un ensemble de prévisions fournitnvaleursxi pour une observation y. Ces valeurs corre- spondent aux réalisations desnvariables aléatoiresXiet à la réalisation deY.

2. On classe lesxipar ordre de valeur croissante.

3. On situe l’observationyparmi lesxitriés et on retient le rang — le rang étant la position de y. Par exemple, le rang 0 correspond ày≤x1, tandis que le rangkcorrespond àxk<y≤xk+1 4. On réitère l’opération pour chaque nouvelle observation.

5. On trace ensuite un histogramme correspondant aux nombres d’observations de rangk, où k∈[0,n+1].

La figure1.10montre un exemple de diagramme de rang.

0 2 4 6 8 10 12 14 Rank

0 1 2 3 4 5 6 7

Number of observations

1e3

FIGURE 1.10 – Exemple d’un diagramme de rang. Il représente le nombre d’observations ayant un rang donné.

La forme du diagramme de rang permet d’évaluer la cohérence entre les distributions des variables Xi etY, autrement dit entre la distribution fournie par l’ensemble et celle liée à la variable observée.

36

Section 1.3 – Évaluation d’ensemble 37

– Un diagramme de rang plat correspond à un diagramme de rang parfait et vérifie l’équa- tion1.18;

– un diagramme de rang en forme de « U » —U-shapeen anglais — correspond à un ensemble trop peu dispersé. En effet, la variable observée est à la fois trop souvent supérieure à Xn

et inférieure àX1;

– un diagramme en forme de cloche ou de dôme —dome-shapeen anglais — correspond à un ensemble trop dispersé ;

– un diagramme asymétrique correspond à un ensemble qui a un biais.

Quatre diagrammes de rang avec des formes différentes sont présentés à la figure 1.11. Ils donnent la forme d’un diagramme dans les cas sur-dispersés et sous-dispersés d’un ensemble avec un biais et sans biais. Le biais, présenté ici à titre d’exemple, est un biais positif. C’est-à-dire que E[X]>E[Y].

(a) Forme de « U » (b) Forme de cloche

(c) Forme de « U » avec biais (d) Forme de cloche avec biais

FIGURE 1.11 – Exemple de quatre diagrammes rang de 100 membres pour 15000 observations.

Les diagrammes(a)et(b)correspondent respectivement à 2 ensembles non biaisés sous-dispersé et sur-dispersé. Les diagrammes (c) et(d) correspondent quand à eux à des ensembles biaisés sous-dispersé et sur-dispersés.

La forme d’un diagramme de rang peut donc être très caractéristique du comportement d’un ensemble de prévisions comparé aux observations. Dans l’exemple de la figure1.11, on remarque

38

PHYSIQUE ET MODÉLISATION DE LA QUALITÉ DE LAIR, INCERTITUDES ET ENSEMBLE DE PRÉVISIONS

très bien les formes en « U » et en cloche dans le cas où l’ensemble n’est pas assez dispersé ou est trop dispersé. Un ensemble biaisé se caractérise bien par une asymétrie de son diagramme de rang. Dans le cas des diagrammes1.11(c)et1.11(d), le nombre d’observations est plus important à gauche, c’est-à-dire vers le rang 0, ce qui dénote d’une surestimation globale des prévisions par rapport aux observations.

Les exemples donnés figure 1.11sont issus d’expériences contrôlées, avec des distributions choisies pour générer aléatoirement des observations et les ensembles de prévisions. Le tableau1.3 donne les moyennes et les écarts types des distributions normales choisies pour cette expérience.

Le nombre d’observations est fixé à 15000.

TABLE 1.3 – Moyennes et écarts type des distributions normales utilisées pour générer les ob- servations et les ensembles de 100 membres dont les diagrammes de rang sont présentés sur la figure1.10.

Y 1.11(a) 1.11(b) 1.11(c) 1.11(d)

Moyenne 0. 0. 0. 0.25 0.25

Écart type 1. 0.75 1.25 0.75 1.25

Biais aucun aucun positif positif

Dispersion sous sur sous sur

On se propose ensuite de démontrer les équations1.18et1.19pour 2 puisnvariables.

Démonstration pour 2 variables

Soient 2 variables aléatoiresXetY de densité de probabilité notéesfXetfY — on en suppose ici l’existence. On noteFX etFY les fonctions de répartition. La probabilité

P(Y ≤X)= ZX

−∞

fY(t)dt=FY(X) (1.20)

est une variables aléatoire. On peut en calculer l’espérance : E[P(Y ≤X)]=

Z+∞

−∞

Zx

−∞

fY(t)dt fX(x)dx. (1.21) On suppose que X et Y suivent la même loi de probabilité : fY = fX =f. On veut calculer l’espérance E[P(Y≤X)]. Cela revient à montrer l’équation1.18pourn=1, soit E[P(Y≤X)]=12.

E[P(Y≤X)]= Z+∞

−∞

Zx

−∞

f(t)dt f(x)dx

= Z+∞

−∞

F(x)f(x)dx

= Z+∞

−∞

F(x)F(x)dx

=1 2

£F2(x)¤+∞

−∞

=1 2(1−0) E[P(Y ≤X)]=1

2 (1.22)

38

Section 1.3 – Évaluation d’ensemble 39

Démonstration pournvariables

On souhaite démontrer maintenant l’équation1.19avecnvariablesXi. On utilise ici non plus la définition de la fonction de répartition mais la statistique d’ordre.

On définit lesn+1 variables suivantes (U1,...,Ui,...,Un,Un+1) comme étant les (X1,...,Xi,...,Xn,Y).

On introduit en plus les variables Si qui correspondent auxUi rangées. Soit S1<S2<...Si<

...Sn+1lesUitriés. On se propose de calculer l’espérance de la probabilité d’avoir lesUià la jième place.

X

i

P(Ui=Sj

=E

"

X

i

P(Ui=Sj)

#

=E[1]

=1 De plus, pour toutiet toutk, on a :

E[P(Uk=Sj)]=E[P(Ui=Sj)].

On a doncPn+1

i=1E[P(Ui=Sj)]=1, soit E[P(Ui=Sj)]=n+11. Autrement dit, chaqueUisuivant la même loi de probabilité a autant de chance que les autres d’être à une jièmeplace quelconque.

Il est possible d’écrire autrement :

P(Ui=Sj

=E£

P(Ui∈]Sj1,Sj+1[)¤ . En posanti=n+1 pour avoirY, il vient :

E£P(Y∈]Sj1,Sj+1[)¤

= 1 n+1 E£P(Sj1<Y <Sj+1

= 1 n+1. Limites du diagramme de rang

– Le diagramme de rang n’évalue que la fiabilité d’un système. La résolution n’est donc pas prise en compte ;

– le diagramme de rang est nécessaire mais non suffisant pour estimer la qualité d’un sys- tème de prévision ;

– l’interprétation de la qualité d’un système à partir d’un diagramme de rang est à prendre avec précaution.

Quantification numérique

Un diagramme de rang est avant tout un indicateur visuel. On a décrit dans un paragraphe précédent qu’un diagramme donne des informations sur le biais et la dispersion d’un ensem- ble. Une manière de comparer l’adéquation de deux ensembles est d’identifier l’ensemble dont le diagramme de rang est le plus « plat ». Il est judicieux d’introduire un score quantitatif qui le mesure. Ce score devient même indispensable si l’on souhaite comparer plusieurs diagrammes de rang avec un nombre de rangs différents. Cette partie décrit le score normalisé d’un diagramme

40

PHYSIQUE ET MODÉLISATION DE LA QUALITÉ DE LAIR, INCERTITUDES ET ENSEMBLE DE PRÉVISIONS

de rang. Par la suite, on fera référence à ce score normalisé comme étant le « score » du diagramme de rang.

On sait que E[P(Y ≤Xi)]= n+i1. Soit bi la valeur du nombre d’observations de rang i — nombre d’observations dans le ie intervalle, c’est-à-dire entre le membre i de l’ensemble et le membrei+1. Le système est fiable sibi=nM+1, avecM le nombre total d’observations. On définit le score comme étant la variance du diagramme de rang soit :

S = Xn i=0

µ

bi− M n+1

2

. (1.23)

On cherche à calculer l’espérance deS. On décide de poser :

bi= XM j=1

qj, (1.24)

qj=

(1 avec probabilitép=n1+1 0 avec probabilitéq=1−p=n+n1

(1.25) qj suit donc une loi de Bernoulli avec la probabilité p. On peut aisément vérifier E[bi]=nM+1. En effet,

E[bi]=E

"M X

j=1

qj

#

= XM j=1

E[qj]

= M n+1.

biest une somme de variables suivant une loi de Bernoulli. Ainsi,bisuit une loi binomiale de paramètresMetp—Mtirages de la variableqsuivant la probabilitép. On a donc les propriétés suivantes :

– E[bi]=M p;

– Var[bi]=M p(1−p).

De plus, Var[X]=E[X2]−E[X]2. L’espérance deb2i vaut alors E[b2i]=Var[bi]+E[bi]2

=M p(1−p)+(M p)2

= M n+1

µ 1− 1

n+1

¶ +

µ M n+1

2

=M(n+M) (n+1)2 . On veut maintenant calculer l’espérance de¡binM+1

¢2

. 40

Section 1.3 – Évaluation d’ensemble 41

E

·µ

bi− M n+1

2¸

=E[b2i]− 2M

n+1E[bi]+ µ M

n+1

2

=M(n+M)

(n+1)2 − 2M2 (n+1)2+

µ M n+1

2

= nM (n+1)2. L’espérance du scoreS, notéS0, est donc

S0=E[S]= nM

n+1. (1.26)

On définit alors le score normalisé du diagramme de rang comme δ=

S

S0. (1.27)

Un diagramme de rang plat revient à avoirδ=1.

Ce score permet d’apporter une quantification numérique relative aux diagrammes de rang, en plus de l’information visuelle qu’apportent ces derniers. De plus, il est aussi un moyen de vérifier la qualité des diagrammes de rang qui ont une forme semblable, et qu’il est donc difficile de comparer.

La figure 1.12 présente deux diagrammes de rang de deux ensembles assez semblables — léger biais positif et une sous-dispersion — qui ont un nombre de membres différents (40 et 30).

Malgré leur forme assez proche, leurs scores normalisés sont assez différents : 27.3 pour le dia- gramme1.12(a)et 58.4 pour le diagramme1.12(b). Comme précédemment, les observations ont été générées aléatoirement avec une loi normale centrée réduite. Quant aux deux ensembles, ils ont été générés avec les lois normales N(0.2,0.85) etN(0.23,0.8). Dans cet exemple, il paraît délicat d’affirmer lequel de ces deux diagrammes de rang est le plus « plat ». Cependant, la distri- bution de l’ensemble de 40 membres, qui a un meilleur score que son homologue, est plus proche de la distribution des observations. L’intérêt du score normalisé présenté dans cette partie est de s’affranchir d’une comparaison uniquement visuelle qui peut s’avérer trompeuse.

1.3.6 Score de Brier