• Nenhum resultado encontrado

Sous-échantillonage pour les bandit contextuels linéaires

α=0.01,∆=10−3et∆mCV aR =0.1.

Les résultats montrent que dans les trois configurations et dès un horizon temporel court,MARABOUTest capable d’obtenir un pseudo-regret mCVaR logarithmique, pour Cpetit (C=10−4, en dehors des valeurs admissibles pour la PropositionA.3.5) etβ=0.

Ces résultats sont encourageants notamment pour les deux derniers problèmes où la petite valeur deαinterdit une estimation précise de mCVaR avec peu d’échantillons mais où l’algorithme conserve un regret logarithmique même en cas de marge∆mCV aR

petite.

Pourαpetit, on observe une variance plus large, vraisemblablement dûe à la sensibil- ité de l’estimation de mCVaR lors des premières itérations. Cette variance augmente également lorsque la marge∆mCV aR diminue.

Comparaison avecMARAB

Sur les 1000 problèmes aléatoires,α=0.2 etC =107 (un ordre de grandeur plus petit),MARABOUTobtient des résultats légèrement dégradés mais comparables à ceux obtenus par MARABpourT =100K =2000 etT =200K =4000. En examinant les récompenses instantanées obtenues, on observe comme précédemment une plus grande sensibilité au paramétrage dans le cas où la variance est faible, même si MARABOUTest capable d’atteindre des performances du niveau de celle deMARABdans les deux cas pourα=20%. Finalement, sur le problème d’énergie réel, on observe queMARABOUTest capable d’obtenir de bonnes récompenses en pire cas, mais souffre d’un regret significativement supérieur àMARAB. Ces meilleurs résultats deMARABsont certainement conséquence du caractère pessimiste de l’algorithme.

A.4. Sous-échantillonage pour les bandit contextuels linéaires

Notations et hypothèses

Nous notonsdla dimension du problème, l’espace des contextesX ⊂Rd et un espace de paramètresΘ⊂Rd. Pour chaque brasi, nous faisons l’hypothèse qu’il existe un paramètreθi ∈Θ à apprendre et la récompense instantanée (associée au brasIt) s’écrit alors :

Yt= 〈Xt,θIt〉 +ηt (A.19) avecηt bruit additif centré. Ce modèle est appelémodèle linéaire disjointet est partagé parLinUCB(Li et al., 2010), mais ni parOFUL(Abbasi-Yadkori et al., 2011) ni par Thompson sampling(Agrawal and Goyal, 2012a) qui eux considèrent un paramètreθ partagé par tous les bras.

Nous faisons de plus les hypothèses suivantes :

• Les contextesXt ∈X sont tirés indépendemment par la Nature.

• Les paramètresθi∈Θsont deux à deux indépendants.

• ΘetX sont supposés convexes, bornés et connus du joueur.

• Le bruitηt est sous-gaussien, i.e., il existe une constanteRη∈Rtelle que, pour toutλ∈R:

log£ Eexp¡

ληt

¢¤Éλ2Rη2

2 (A.20)

• La moyenne des contextes est notée µet on écritXt =µ+ξt, où lesξt sont centrés et i.i.d, bornés presque sûrement parkξtk Éσ

2 X

2 pour une constanteσ2X, et tels que, pout toutλ∈Rd :

log£ Eexp¡

λTξt

¢¤Ékλk22σ2X

2 (A.21)

• ∀x∈X,∀θ∈Θ,|〈x,θ〉 É1

• Le rayon de l’espace de paramètreΘest borné par une constanteB :

maxθ∈Θ kθk2ÉB (A.22)

• Toutes les distributions ont une densité par rapport à la mesure de Lebesgue.

Nous considérons maintenant un ensemble deSéchantillons contexte-récompense S def=©¡

Xi1,Yi1

¢, . . . ,¡ XiS,YiS

¢ª,X(S)def= ¡

Xi1, . . . ,XiS

¢T

la matriceS×dde contextes et Y(S)def= ¡

Yi1, . . . ,YiS¢T

le vecteur de récompense de dimensionSassociés.

Nous voulons estimer le vecteurθtel queY(S)=X(S)θ. L’estimateur régularisé des moindres carrésθbest défini par :

cθλ(S)def= ¡

X(S)TX(S)+λId

¢−1

X(S)TY(S) (A.23)

avecId la matrice identitéd×detλ>0 un paramètre de régularisation.

Finalement, nous introduisons les notations suivantes :

• Si,t def= ©

(Xt0,Yt0) :t0Ét,It0=iª

est le sous-ensemble d’observations où le brasi est choisi.

IW r(n,m) dénote un ensemble aléatoire den indices tirés uniformément sans remise sur l’ensemble {1, . . . ,m}. Par convention,I={1, . . . ,m} sinÊm.

• En notantS ={s1, . . . ,sS} un ensemble fini d’observations, on défini l’ensemble sous-échantillonne par rapport àI parS(I)def= {si,iI}.

Algorithme

L’algorithmeCL-BESA(Contextual Linear Best Sub-Sampled Arm) est introduit pour le cas deK =2 bras dénotésaetb(Algorithme27).

Algorithm 27CL-BESA(a,b) pour deux bras

Require: Itération courantet, contexteXt, paramètreλ.

1: ÉchantillonnerIt−1a ∼Wr(Nt−1(b);Nt−1(a)) etItb−1∼Wr(Nt−1(a);Nt−1(b)).

2: Calculerθba,t1

def= θbλ(Sa,t1(Ita1)) etθbb,t1

def= θbλ(Sb,t1(Itb1))

3: Tirer (choix du bras le moins tirés en cas d’égalité) It=argmax

a0∈{a,b}

Xt,θba0,t−1〉. (A.24)

CommeBESA,CL-BESAcompare deux brasaetb sur la base de la même quantité d’information. Pour ce faire, il sous-échantillonne parmi le bras le plus tirés un nom- bre d’échantillons égal à celui du bras le moins tirés (Ligne 1) et calcule les estimateurs sur ces sous-échantillons (Ligne 2). Le bras avec la récompense instantanée espérée maximale est tiré selon l’ÉquationA.24.

A.4.2 Borne sur le regret contextuel

Regret contextuel

Contrairement au cas standard, le meilleur bras peut varier en fonction du contexte instantané Xt. Nous définissons alors une notion de regret contextuel de la façon

A.4. Sous-échantillonage pour les bandit contextuels linéaires

suivante :

Définition A.4.1. Considérons un instant t et le contexte instantané Xt associé. Le meilleur bras est défini par :

θt,?def

= argmax

i∈{a,b}

Xt,θi〉.

Étant donné un horizon temporel T∈N?, leregret contextuelest défini par : RX,T =

T

X

t=1

Xt,θt,?θIt〉. (A.25)

Borne

Théorème A.4.1. Soit RηetσX les paramètres de bruit sous-gaussiens repectivement définis par les ÉquationsA.20etA.21et soit B défini par ÉquationA.22. Soitλun paramètre croissant (Éq.A.23) tel queλÊ6σ2Xlog(T). Supposons que

¯

¯〈µ,θaθb〉¯

¯Ê8σXB+2p

2kθak2+ kθbk2

qλ−1+ kµk22. (A.26) Alors, le regret contextuel deCL-BESAaprès T pas de temps est borné par :

E[RX,T]É¡

maxt∈[T]t

¢ 64 mint[T]2t

· Rη

s

2dlog³

λ1/2T2+T3(kµk2+σX)2 1/2

´

+λ1/2B

¸2

maxt[T]t

¢24σ2Xlog(T)−2λ kµk22 +

T

X

t=1

tI{min

t[T]t Éτ

+O(1) .

τdef=2σX

h Rη

s 2d

λ log³

λ1/2T2+T3(kµk2+σX)2 1/2

´ +Bi

. (A.27)

Quand la perturbation sur le contexteσX =0, alorst devientdef= |〈µ,θaθb〉¯

¯et nous obtenons

E[RX,T]É128R2ηd

∆ log(2T3kµk22/d)+O(1).

A.4.3 Validation expérimentale

Cette section présente les résultats numériques de l’approcheCL-BESAet la compare à d’autres approches de l’état de l’art.

A.4.4 Cadre expérimental

Nous comparonsCL-BESAà trois algorithmes :Thompson sampling,OFULetLinUCB. LinUCBetCL-BESApartagent le même modèle etLinUCBpeut donc être appliqué tel que dans (Li et al., 2010). À l’inverse,OFULetThompson samplingfont l’hypothèse d’un paramètreβpartagé entre tous les bras et doivent donc être adaptés pour pouvoir être appliqué à notre modèle. Une façon simple est de concaténer les deux paramètres inconnusθaetθben un seul paramètre à apprendreθdef= (θaθb)∈Rd K et d’y associer les vecteurs de contexteθt,a

def= (XtT0Td)T ∈Rd K etθt,b

def= (0TdXtT)T. Cette adaptation permet une comparaison juste des algorithmes carOFULetThompson samplingne pourront pas tirer parti d’information partagée entre les bras.

A.4.5 Résultats

L’objet de cette section est de résumer les résultats numériques obtenus. L’ensemble des figures peut être consulté dans le chapitre7.

Problème orthogonal

Les algorithmes sont évalués sur le problème suivant avec K =2 bras définis par µ=(0.5, 0.5)T,θa=(0.5, 0)T etθb=(0, 0.5+2∆)T. La marge∆est fixée à∆=101et T =1000. À chaque pas de temps, un contextXt est tiré uniformément dans la boule B(µ,σ22X) et la récompense est donnée parYt = 〈Xt,θIt〉 +ηt avecηt∼N (0,R2η)

Sensibilité au paramètre

Un avantage majeur en terme d’applicabilité et d’implémentation deCL-BESAest le fait qu’il ne nécessite qu’un seul paramètre. De plus, les expériences montrent que le regret contextuel est peu sensible à la valeur donnée à ce paramètre. Cette robustesse est à mettre en comparaison avec, d’un part le grand nombre de paramètres et/ou la sensibilité des autres algorithmes à leur paramétrage. Par exemple, il est montré qu’OFULest sensible aux paramètresROFU LetSOFU L respectivement idéalement fixés aux valeurs (en pratique inconnues)ROFU L=RηetSOFU L= kθk2.

Sensibilité au bruit et à la perturbation du contexte

CL-BESA,OFUL,LinUCBetThompson samplingsont testés sur le problème orthogo- nal avec différent niveaux de bruit additifRη∈{∆, 10∆} et perturbation de contexte

σX

p2∈{10,∆, 10∆, 100∆}.OFULetThompson samplingont accès aux valeurs optimales deRetS.