• Nenhum resultado encontrado

A.3 Prise en charge du risque

A.3.2 Valeur à risque conditionnelle

Nous considérons dans cette partie une nouvelle mesure de risque correspondant informellement à la moyenne obtenue dans les α% pires cas, avec α∈(0, 1] un paramètre. Cette notion intuitive fait l’objet d’une définition formelle issue de la littérature économique et définie ci-dessous.

Définitions

Définition A.3.2(Valeur à risque). Soit X une variable aléatoire etα∈(0, 1]une vari- able aléatoire réelle. Lavaleur à risque (Value at risk) ouquantiled’ordreαest définie par :

V aRαdef= inf

ξ∈R{P(X Éξα} (A.9)

Définition A.3.3(Valeur à risque conditionnelle). Soit X une variable aléatoire réelle etα∈(0, 1]. Lavaleur à risque conditionnelle (Conditional Value at risk)d’ordreα est définie par :

CV aRαdef= inf

ξ∈R

½ ξ+ 1

1−α

(Xξ)+¤

¾

(A.10) avec(x)+la partie positive de x définie par :

(x)+=

x x>0 0 xÉ0

Proposition A.3.3. Soit X une variable aléatoire réelle. Si P(X =V aRα(X))=0(en particulier si X est une variable continue), on a :

CV aRα(X)=E[X|X >V aRα(X)] (A.11) Remarque A.3.1. Intuitivement, X représente une perte et CV aRα(X)est l’espérance de X dans lesα%pires cas. CV aRα(X)est une quantité que l’on souhaite minimiser.

Remarque A.3.2. La dénomination de "valeur à risque conditionnelle" est justifiée par l’ÉquationA.11.

Il est habituel dans la littérature bandit de considérer un critère à maximiser. Pour cela, nous nous intéressons, pour une variableX à la quantitémCV aR(X)def= −CV aR(−X) (=E[X|X <V aR(X)] siX est continue) que nous nommeronsvaleur à risque condi- tionnelle modifiée.

A.3. Prise en charge du risque

Estimation de la valeur à risque conditionnelle (modifiée)

Définition A.3.4. Soitα∈(0, 1]un niveau de confiance, et soit x1, . . . ,xnun échantillon de n réalisation i.i.d. d’une distributionν. En supposant, sans perte de généralité, que x1Éxn, un estimateur de mCV aRα(X)avec Xνest défini par :

mCV aRáα(x1, . . . ,xn)def= 1 de

dnαe

X

i=1

xi (A.12)

avecdnela partie entière par excès de n.

Remarque A.3.3. Pourα=1, l’estimateur est la moyenne empirique des xi.

Remarque A.3.4. D’après (Chen, 2008),mCV aRáα(X)est un estimateur consistant de mCV aRα(X).

AlgorithmeMARAB

Le pseudo-code de l’algorithmeMARAB(Multi-Armed Risk Aware Bandit, Galichet et al.

(2013)) est décrit dans l’Algorithme25. Nous posonsmCV aRáα,i(Xi,1, . . . ,Xi,Ni,t)def= mCV aRáα(Xi,1, . . . ,Xi,Ni,t).

Algorithm 25MARABpourK bras

Require: Horizon temporelT; niveau de risqueα; paramètre d’explorationC>0.

1: fort=1 . . .K do

2: It=t; récupérerYt; initialisermCV aRáα,t(Xt,1)=Xt,1=Yt

3: end for

4: fort=K+1 . . .T do

5: Tirer (choix arbitraire en cas d’égalité) It∈argmax

i{1,...,K}

(

mCV aRáα,i(Xi,1, . . . ,Xi,Ni,t)−

sClogde dαNi,te

)

. (A.13)

6: end for Discussion

L’algorithmeUCBest basé sur le principe d’optimisme face à l’inconnu en sélection- nant le bras avec uns borne de confiance supérieure sur la moyenne maximale. Ici, MARABfait preuve d’un comportement prudent et pessimiste dû au terme d’exploration négatif. Ainsi, et en opposition àUCB, plus la valeur du paramètreC est grande et plus l’algorithme se montre conservateur. De part la définition de l’estimateur en équation A.12, l’algorithmeMARABse comporte en deux phases :

1. Dans une premièrephase d’initialisation(Ni,t <α1 etdNi,te =1), on a : mCV aRáα,i(Xi,1, . . . ,Xi,Ni,t)=X(1)= min

s∈{1,...,Ni,t}

©Xi,sª

et la qualité du bras est évaluée à partir de la valeur minimale obtenue (et décroit donc avec le temps). La durée de cette phase est contrôlée parαet augmente lorsqueαdécroit vers 0.

Dans cette phase, la maximisation demCV aRáα,i(Xi,1, . . . ,Xi,Ni,t) se réduit à un problème max-min et le comportement deMARABse rapproche de celui deMIN (à la seule différence queMINn’a pas de terme d’exploration négatif ). Dans ces premières itérations, l’exploration est seulement dûe à la décroissance de mCV aRáα,i(Xi,1, . . . ,Xi,Ni,t) avecNi,t, qui peut induire la revisite de bras moins essayés.

Cependant, la nature pessimiste de l’approche empêche la visite de bras ayant procuré de mauvaises récompenses dans les premiers essais.

2. Une seconde phase de stabilisation, où l’estiméemCV aRáα,i(Xi,1, . . . ,Xi,Ni,t) est calculée avec une précision acrrue, l’erreur d’approximation convergeant vers 0 commep

Ni,t (Chen, 2008). Seul les bras les plus joués entre dans cette phase (Ni,tÊα1) et la valeur empirique demCV aRáα,i(Xi,1, . . . ,Xi,Ni,t) tend à se stabiliser. Notons cependant qu’il n’y a pas de garantie de visiter chaque bras un nombre infini de fois à cause du terme négatif d’exploration.

Validation expérimentale de MIN et MARAB

MINetMARABsont comparés àUCBet aux algorithmesMVLCBetExpExp(Sani et al., 2012a), conçus pour présenter également une aversion au risque. Trois configurations sont envisagées :

• Premièrement un problème simple oùMINest placé dans des conditions favor- ables (ÉquationA.5satisfaite, ordre identique sur les bras pour la moyenne et l’infimum essentiel avec∆a,i>∆µ,i pour tout brasi).

• 1000 problèmes aléatoirement générés satisfaisant uniquement ÉquationA.5.

• Un problème réel d’allocation énergétique simplifié.

On considère K =20 bras pour toutes ces expériences et T =100K ouT =200K. L’ensemble des figures présentant les résultats sont disponibles dans la Section6.5.1.

Les conclusions des expérimentations sont les suivantes :

A.3. Prise en charge du risque

• Sur un problème favorable,MINest capable de tirer avantage de marges∆a,i

supérieures à∆µ,i et d’obtenir de meilleures performances queUCBdont les performances sont également dégradées en cas de fortes variances sur les bras sous-optimaux.MARABest de façon intéressante capable d’avoir le même com- portement queMINpour une large plage de valeurαet avec une faible sensibilité à son paramètre d’explorationC.

• Sur les 1000 problèmes artificiels, après paramétrisation optimale de tous les al- gorithmes,UCBretourne les meilleurs résultats globaux.MARABmontre un regret légèrement dégradé avec une sensibilité plus faible au paramètreC. ExpExp domineMVLCBet est dominé parMARABpour environ 70% des problèmes. De manière intéressante, ces observations sont valides sur les deux horizons tem- porels. De plus, en observant la distribution des récompenses instantanées récoltées par les algorithmes sur les problèmes artificiels avec une forte et faible variance, on observe une grande sensibilité au paramètreC d’UCB. MARABet ExpExpsont eux capables d’éviter les bras risqués etMVLCBa de faibles per- formances. MARABprésente cependant les avantages de ne pas nécessiter la connaissancea prioride l’horizonT et d’être robuste vis-à-vis de sa paramétri- sation (Cetα). Enfin, pourαÉ0.2, les expériences montrent queMARABobtient de meilleurs résultats en pire cas queExpExp.

• Ces tendances globales sont reproduites sur le problème d’énergie réel avec un regret minimal pourUCBparamétré idéalement,MVLCBdominé par tous les algorithmes, MARAB(etMIN) capable d’éviter les bras risqués pour une large plage de valeurs deC.