3. MATERIAL E MÉTODOS
3.2. Experimento I: Ensaio de digestibilidade aparente
Pour évaluer la performance de l’algorithme proposé, nous majorons l’espérance du regret accumulé jusqu’à un horizon finin fixé. On rappelle que l’espérance du regret est défini comme la différence entre l’espérance des récompenses cumulées sous la politique optimale et celles obtenues en suivant l’algorithme :
Eθ∗[Regretn] = Eπ ∗ θ∗ θ∗ "n−1 X t=0 r(Xt, At) # − EAP θ∗ "n−1 X t=0 r(Xt, At) # , (2.26)
oùθ∗ est la valeur inconnue du paramètre. Pour tout sous-ensembleλ de Θ, notons δ(λ) = sup
θ − θ0
∞, θ, θ0∈ λ
le diamètre deλ. Pour obtenir des bornes de Eθ∗[Regretn] qui ne dépendent pas de θ∗, il est nécessaire de faire les hypothèses suivantes :
Hypothèse 2.1. La région de confiance ∆t, qui est en général aléatoire, est construite de
manière à ce qu’il existec1, c01, c3 ∈ R+ tels que, pour toutθ ∈ Θ, et pour tout c3log(n) ≤ t ≤
n, Pθ θ ∈ ∆t, δ(∆t) ≤ c1 √ log n √ t ≥1 − c01n−1/3 .
Hypothèse 2.2. Etant donné un réel positif (n), il est possible de construire des zones frontières (Fj(n))j telles qu’il existe des constantes c2, c02 ∈ R+ pour lesquelles
– δ(∆t) ≤ c2(n) implique qu’il existe soit i tel que ∆t⊂ Zi soit j tel que ∆t⊂ Fj(n),
– si θ ∈ Fj(n), il existe θi0 ∈ Zi tel que kθ − θ0ik∞ ≤ c02(n), pour toutes les zones de
politiques Zi compatibles avecFj(n) (c.a.d, telles que ZiT Fj(n) 6= ∅).
Hypothèse 2.3. Pour touti, il existe di∈ R+ tel que pour tout θ, θ0 ∈Θ,
|ηπi∗ θ − η π∗i θ0 | ≤ di θ − θ0 ∞.
L’hypothèse 2.1 concerne la construction des régions de confiance. Elle peut généralement être satisfaite en utilisant des inégalités de concentration. La constante1/3 est arbitraire et a été choisie de manière à coïncider avec le regret espéré minimal dans le pire des cas présenté dans le théorème 2.2 ci-dessous. Une autre constante pourrait être choisie (voir par exemple l’hypothèse 2.4 ci-dessous).
L’hypothèse 2.2 implique que toute région de confiance de diamètre plus petit que (n) est entièrement contenue soit dans une zone de politique soit dans une zone frontière, tout en assurant que, localement, la taille de la zone frontière est de l’ordre de(n). Plus précisément, dès que le diamètre de la région de confiance ∆t devient plus petit que la moitié de la largeur des zones frontières, alors ∆t est forcément entièrement incluse soit dans une zone de poli-
tique, soit dans une zone frontière. L’algorithme de pavage dépend de manière cruciale de la construction de ces zones frontières. La figure 2.11 représente l’exemple de pavage précédent et une région de confiance sphérique de diamètre égale à la moitié de la largeur de la frontière F4. Ainsi, où qu’elle soit centrée, cette boule est toujours contenue, soit dans une zone fron-
tière, soit dans une zone de politique. Ceci ne serait pas vrai si le diamètre de la boule était ne serait-ce qu’un peu plus grand.
Z 1 Z 2 Z 3 F 3 F 1 F 2 F 4 Z 1 Z 2 Z 3 F 3 F 1 F 2 F 4
Figure 2.11 – Boule de confiance (grise) dans le pavage de l’espace des paramètres présenté précédemment. Le diamètre de la boule étant égale à la moitié de la largeur de la zone frontière, la boule est soit incluse dans une zone de politique (à gauche), soit dans la zone frontière (à droite).
Finalement, l’hypothèse 2.3 est une simple condition de régularité (continuité Lipschit- zienne de la fonction de valeur). Le théorème suivant expose la performance de l’approche utilisant un pavage de l’espace des paramètres.
Théorème 2.2. Sous les hypothèses 2.1, 2.2 et 2.3, et pour tout n, la durée de la phase d’exploration est majorée, en espérance, par
Eθ∗(Tn) ≤ c log n
2(n) , (2.27)
et l’espérance du regret par
Eθ∗[Regret
n] ≤ Eθ∗(Tn) + c0n(n) + c00n2/3, (2.28) où c = (c1/c2)2, c0 = c02maxi,k(di+ dk) et c00= c01+ c3.
Le regret espéré minimal dans le pire des cas est obtenu en sélectionnant (n) de l’ordre de (log n/n)1/3, ce qui permet d’obtenir la borne
pour une constanteC.
La borne de la durée de la phase d’exploration de l’équation (2.27) vient du fait que l’ex- ploration termine seulement quand la région de confiance, définie dans l’hypothèse 2.1, atteint une taille qui est de l’ordre du diamètre de la frontière, c’est-à-dire(n). Le deuxième terme du membre de droite de l’équation (2.28) correspond au regret maximal si la phase d’exploration se termine dans une zone frontière. Le taux(log n)1/3n2/3 est obtenu en équilibrant ces deux
termes (Eθ∗(Tn) et c0n(n)).
Démonstration. La région de confiance est telle que, pour tout instantc3log(n) ≤ t ≤ n,
Pθ∗
θ∗ ∈∆t, δ(∆t) ≤ c1
p
log n/√t≥1 − c01n−1/3.
A la fin de la phase d’exploration, si le vrai paramètreθ∗ est dans la région de confiance, deux cas sont possibles : soit la région de confiance ∆t est contenue dans une zone de politique
Zi, soit elle est incluse dans une zone frontière Fj(n). Si la région de confiance est contenue
dans une zone de politique, le regret est la somme de la perte accumulée pendant la phase d’exploration et de la perte correspondant au fait que la région de confiance ne contient pas le vrai paramètreθ∗. La perte accumulée durant la phase d’exploration peut être majorée par
la durée de celle-ci. De plus, l’hypothèse 2.1 étant vraie pourt ≥ c3log(n), on a donc
Eθ∗[Regretn] ≤ c3log(n) + Eθ∗(Tn) + c0
1n n −1/3
.
Si la région de confiance est dans une zone frontière Fj(n), un terme supplémentaire est
ajouté au regret. Il s’agit de la perte due au fait que la politique sélectionnée à la fin de la phase d’exploration n’est pas nécessairement l’optimale pour le vrai paramètre θ∗. Soit
π∗
i la politique optimale pour θ∗ et πk∗ la politique sélectionnée. Notons que Zi et Zk sont
compatibles avecFj(n). La perte est alors
ηπ∗i θ∗ − η π∗k θ∗ = (η π∗ i θ∗ − η π∗ i θ ) + (η πk∗ θ − η πk∗ θ∗) + (η π∗ i θ − η πk∗ θ ) ,
pour tout θ ∈ ZkT Fj(n). Le dernier terme est négatif puisque π∗k est la politique optimale
pourθ. Les deux autres termes peuvent être majorés en utilisant l’hypothèse 2.3. Alors, |ηπi∗
θ∗ − η
π∗k
θ∗| ≤(di+ dk)kθ∗− θk∞.
La région de confiance étant entièrement incluse dans la zone frontièreFj(n), les paramètres
θ et θ∗ appartiennent tous les deux à celle-ci. D’après l’hypothèse 2.2, on peut donc choisirθ tel que kθ∗− θk
∞< c02(n) alors
Eθ∗[Regretn] ≤ c3log(n) + Eθ∗(Tn) + nc0(n) + c01n n−1/3, oùc0 = c02maxi,k(di+ dk) .
Le regret maximal est obtenu quand la région de confiance est contenue dans une zone frontière. D’après les hypothèses 2.1 et 2.2, sit satisfait c1(log n/t)1/2 < c2(n) alors t ≥ Tn
avec grande probabilité. Donc, Eθ∗(Tn) ≤ (c21log n)/(c2(n))2. L’espérance du regret est alors majorée par max θ∗ Eθ ∗[Regretn] ≤ c3log(n) + c 2 1log n c2 22(n) + nc0(n) + c0 1n2/3,
qui est minimisé pour(n) =2c21 log n
c2 2c0n
1/3 .
Un examen plus précis de la preuve montre que si l’on peut assurer que l’exploration termine dans une des zones de politique Zi, l’espérance du regret peut être bornée par une
expression similaire à (2.28) mais sans le terme c0n(n). Dans ce cas, en modifiant légèrement
l’hypothèse 2.1, on peut obtenir des bornes de regret logarithmiques.
Hypothèse 2.4. L’intervalle de confiance ∆t est construit de manière à ce qu’il existe c1, c01, c3 ∈ R+ tels que, pour tout θ ∈ Θ, pour tout n, pour tout c3log(n) ≤ t ≤ n, et
tout x > 1, Pθ θ ∈ ∆t, δ(∆t) ≤ c1 √ x √ t ≥1 − c01exp{−2x} .
Il est cependant nécessaire d’introduire des contraintes supplémentaires pour garantir que l’exploration termine dans une zone de politique plutôt que dans une zone frontière. Ces contraintes prennent typiquement la forme d’une distance minimale entre la valeur du vrai paramètre θ∗ et les bords de la zone de politique associée. Ce résultat est formalisé par le théorème suivant.
Théorème 2.3. Soit θ∗ un paramètre dans une zone de politique Z tel qu’il existe κ pour lequel
min
θ /∈Zkθ ∗
− θk∞> κ .
Sous les hypothèses 2.2, 2.3 et 2.4, l’espérance du regret est majorée par
Eθ∗[Regret
n] ≤ C(κ) log(n) + C 0(κ)
pour tout n et pour des constantes C(κ) et C0(κ) qui décroissent strictement lorsque κ aug- mente.
Démonstration. La condition minθ /∈Zkθ∗− θk∞> κ signifie que la distance entre θ∗ et tout
bord de la zone de politique Z est plus grande que κ. Donc, dès que δ(∆t) ≤ κ, la région de
confiance ∆t est contenue dans la zone de politiqueZ. L’espérance du regret de l’algorithme de pavage est alors majorée parc3log(n) + Eθ∗(Tn) + c01n exp{−2x} . D’après l’hypothèse 2.4, si t satisfait c1(x/t)1/2 < κ alors t ≥ Tn avec grande probabilité. Donc, Eθ∗(Tn) ≤ c1x/κ2 et l’espérance du regret est majorée par
c3log(n) +
c1x
κ2 + c 0
1n exp{−2x} ,
qui est minimisé pour
x = log(2c
0
1nκ2/c21)
2 .
Pour cette valeur de x, on a Eθ∗[Regretn] = c 2 1 2κ2(log(n) + log(2c 0 1κ2/c21) + 1) + c3log(n) .