Experimento I: Ensaio de digestibilidade aparente

3. MATERIAL E MÉTODOS

3.2. Experimento I: Ensaio de digestibilidade aparente

Pour évaluer la performance de l’algorithme proposé, nous majorons l’espérance du regret accumulé jusqu’à un horizon finin fixé. On rappelle que l’espérance du regret est défini comme la différence entre l’espérance des récompenses cumulées sous la politique optimale et celles obtenues en suivant l’algorithme :

Eθ∗[Regret_n] = Eπ ∗ θ∗ θ∗ "_n−1 X t=0 r(Xt, At) # − EAP θ∗ "_n−1 X t=0 r(Xt, At) # , (2.26)

oùθ∗ est la valeur inconnue du paramètre. Pour tout sous-ensembleλ de Θ, notons δ(λ) = sup

θ − θ0

_∞, θ, θ0∈ λ

le diamètre de_{λ. Pour obtenir des bornes de E}_θ∗[Regret_n] qui ne dépendent pas de θ∗, il est nécessaire de faire les hypothèses suivantes :

Hypothèse 2.1. La région de confiance ∆t, qui est en général aléatoire, est construite de

manière à ce qu’il existec1, c01, c3 ∈ R+ tels que, pour toutθ ∈ Θ, et pour tout c3log(n) ≤ t ≤

n, Pθ θ ∈ ∆t, δ(∆t) ≤ c1 √ log n √ t ≥1 − c0₁n−1/3 .

Hypothèse 2.2. Etant donné un réel positif (n), il est possible de construire des zones frontières (F_j(n))_j telles qu’il existe des constantes c2, c02 ∈ R+ pour lesquelles

– δ(∆t) ≤ c2(n) implique qu’il existe soit i tel que ∆t⊂ Zi soit j tel que ∆t⊂ Fj(n),

– si θ ∈ Fj(n), il existe θi0 ∈ Zi tel que kθ − θ0ik∞ ≤ c02(n), pour toutes les zones de

politiques Zi compatibles avecFj(n) (c.a.d, telles que ZiT Fj(n) 6= ∅).

Hypothèse 2.3. Pour touti, il existe di∈ R+ tel que pour tout θ, θ0 ∈Θ,

|ηπi∗ θ − η π∗_i θ0 | ≤ di θ − θ0 _∞.

L’hypothèse 2.1 concerne la construction des régions de confiance. Elle peut généralement être satisfaite en utilisant des inégalités de concentration. La constante1/3 est arbitraire et a été choisie de manière à coïncider avec le regret espéré minimal dans le pire des cas présenté dans le théorème 2.2 ci-dessous. Une autre constante pourrait être choisie (voir par exemple l’hypothèse 2.4 ci-dessous).

L’hypothèse 2.2 implique que toute région de confiance de diamètre plus petit que (n) est entièrement contenue soit dans une zone de politique soit dans une zone frontière, tout en assurant que, localement, la taille de la zone frontière est de l’ordre de(n). Plus précisément, dès que le diamètre de la région de confiance ∆_t devient plus petit que la moitié de la largeur des zones frontières, alors ∆t est forcément entièrement incluse soit dans une zone de poli-

tique, soit dans une zone frontière. L’algorithme de pavage dépend de manière cruciale de la construction de ces zones frontières. La figure 2.11 représente l’exemple de pavage précédent et une région de confiance sphérique de diamètre égale à la moitié de la largeur de la frontière F4. Ainsi, où qu’elle soit centrée, cette boule est toujours contenue, soit dans une zone fron-

tière, soit dans une zone de politique. Ceci ne serait pas vrai si le diamètre de la boule était ne serait-ce qu’un peu plus grand.

Z 1 Z 2 Z 3 F 3 F 1 F 2 F 4 Z 1 Z 2 Z 3 F 3 F 1 F 2 F 4

Figure 2.11 – Boule de confiance (grise) dans le pavage de l’espace des paramètres présenté précédemment. Le diamètre de la boule étant égale à la moitié de la largeur de la zone frontière, la boule est soit incluse dans une zone de politique (à gauche), soit dans la zone frontière (à droite).

Finalement, l’hypothèse 2.3 est une simple condition de régularité (continuité Lipschit- zienne de la fonction de valeur). Le théorème suivant expose la performance de l’approche utilisant un pavage de l’espace des paramètres.

Théorème 2.2. Sous les hypothèses 2.1, 2.2 et 2.3, et pour tout n, la durée de la phase d’exploration est majorée, en espérance, par

Eθ∗(T_n) ≤ c log n

2(n) , (2.27)

et l’espérance du regret par

Eθ∗[Regret

n] ≤ Eθ∗(T_n) + c0n(n) + c00n2/3, (2.28) où c = (c1/c2)2, c0 = c02maxi,k(di+ dk) et c00= c01+ c3.

Le regret espéré minimal dans le pire des cas est obtenu en sélectionnant (n) de l’ordre de (log n/n)1/3, ce qui permet d’obtenir la borne

pour une constanteC.

La borne de la durée de la phase d’exploration de l’équation (2.27) vient du fait que l’exploration termine seulement quand la région de confiance, définie dans l’hypothèse 2.1, atteint une taille qui est de l’ordre du diamètre de la frontière, c’est-à-dire(n). Le deuxième terme du membre de droite de l’équation (2.28) correspond au regret maximal si la phase d’exploration se termine dans une zone frontière. Le taux(log n)1/3n2/3 _{est obtenu en équilibrant ces deux}

termes (Eθ∗(T_n) et c0n(n)).

Démonstration. La région de confiance est telle que, pour tout instantc3log(n) ≤ t ≤ n,

Pθ∗

θ∗ ∈∆t, δ(∆t) ≤ c1

log n/√t≥1 − c0₁n−1/3.

A la fin de la phase d’exploration, si le vrai paramètreθ∗ est dans la région de confiance, deux cas sont possibles : soit la région de confiance ∆t est contenue dans une zone de politique

Zi, soit elle est incluse dans une zone frontière Fj(n). Si la région de confiance est contenue

dans une zone de politique, le regret est la somme de la perte accumulée pendant la phase d’exploration et de la perte correspondant au fait que la région de confiance ne contient pas le vrai paramètreθ∗_{. La perte accumulée durant la phase d’exploration peut être majorée par}

la durée de celle-ci. De plus, l’hypothèse 2.1 étant vraie pourt ≥ c3log(n), on a donc

Eθ∗[Regret_n] ≤ c₃log(n) + E_θ∗(T_n) + c0

1n n −1/3

Si la région de confiance est dans une zone frontière Fj(n), un terme supplémentaire est

ajouté au regret. Il s’agit de la perte due au fait que la politique sélectionnée à la fin de la phase d’exploration n’est pas nécessairement l’optimale pour le vrai paramètre θ∗_{. Soit}

π∗

i la politique optimale pour θ∗ et πk∗ la politique sélectionnée. Notons que Zi et Zk sont

compatibles avecFj(n). La perte est alors

ηπ∗i θ∗ − η π∗_k θ∗ = (η π∗ i θ∗ − η π∗ i θ ) + (η π_k∗ θ − η π_k∗ θ∗) + (η π∗ i θ − η π_k∗ θ ) ,

pour tout θ ∈ ZkT Fj(n). Le dernier terme est négatif puisque π∗_k est la politique optimale

pourθ. Les deux autres termes peuvent être majorés en utilisant l’hypothèse 2.3. Alors, |ηπi∗

θ∗ − η

π∗_k

θ∗| ≤(di+ dk)kθ∗− θk∞.

La région de confiance étant entièrement incluse dans la zone frontièreFj(n), les paramètres

θ et θ∗ appartiennent tous les deux à celle-ci. D’après l’hypothèse 2.2, on peut donc choisirθ tel que kθ∗_{− θk}

∞< c02(n) alors

Eθ∗[Regret_n] ≤ c₃log(n) + E_θ∗(T_n) + nc0(n) + c0₁n n−1/3, oùc0 = c0₂maxi,k(di+ dk) .

Le regret maximal est obtenu quand la région de confiance est contenue dans une zone frontière. D’après les hypothèses 2.1 et 2.2, sit satisfait c1(log n/t)1/2 < c2(n) alors t ≥ Tn

avec grande probabilité. Donc, Eθ∗(T_n) ≤ (c2₁log n)/(c₂(n))2. L’espérance du regret est alors majorée par max θ∗ Eθ ∗[Regret_n] ≤ c₃log(n) + c 2 1log n c2 22(n) + nc0_{(n) + c}0 1n2/3,

qui est minimisé pour(n) =2c21 log n

c2 2c0n

1/3 .

Un examen plus précis de la preuve montre que si l’on peut assurer que l’exploration termine dans une des zones de politique Zi, l’espérance du regret peut être bornée par une

expression similaire à (2.28) mais sans le terme c0_{n(n). Dans ce cas, en modifiant légèrement}

l’hypothèse 2.1, on peut obtenir des bornes de regret logarithmiques.

Hypothèse 2.4. L’intervalle de confiance ∆_t est construit de manière à ce qu’il existe c1, c01, c3 ∈ R+ tels que, pour tout θ ∈ Θ, pour tout n, pour tout c3log(n) ≤ t ≤ n, et

tout x > 1, Pθ θ ∈ ∆t, δ(∆t) ≤ c1 √ x √ t ≥1 − c0₁exp{−2x} .

Il est cependant nécessaire d’introduire des contraintes supplémentaires pour garantir que l’exploration termine dans une zone de politique plutôt que dans une zone frontière. Ces contraintes prennent typiquement la forme d’une distance minimale entre la valeur du vrai paramètre θ∗ et les bords de la zone de politique associée. Ce résultat est formalisé par le théorème suivant.

Théorème 2.3. Soit θ∗ un paramètre dans une zone de politique Z tel qu’il existe κ pour lequel

min

θ /∈Zkθ ∗

− θk_∞> κ .

Sous les hypothèses 2.2, 2.3 et 2.4, l’espérance du regret est majorée par

Eθ∗[Regret

n] ≤ C(κ) log(n) + C 0_(κ)

pour tout n et pour des constantes C(κ) et C0(κ) qui décroissent strictement lorsque κ aug- mente.

Démonstration. La condition min_{θ /}∈Zkθ∗− θk∞> κ signifie que la distance entre θ∗ et tout

bord de la zone de politique Z est plus grande que κ. Donc, dès que δ(∆t) ≤ κ, la région de

confiance ∆_t est contenue dans la zone de politiqueZ. L’espérance du regret de l’algorithme de pavage est alors majorée parc3log(n) + Eθ∗(T_n) + c0₁n exp{−2x} . D’après l’hypothèse 2.4, si t satisfait c1(x/t)1/2 < κ alors t ≥ Tn avec grande probabilité. Donc, Eθ∗(T_n) ≤ c₁x/κ2 et l’espérance du regret est majorée par

c3log(n) +

c1x

κ2 + c 0

1n exp{−2x} ,

qui est minimisé pour

x = log(2c

1nκ2/c21)

2 .

Pour cette valeur de x, on a Eθ∗[Regret_n] = c 2 1 2κ2(log(n) + log(2c 0 1κ2/c21) + 1) + c3log(n) .

No documento Avaliação nutricional de dietas contendo quatro níveis de inclusão e dois graus de moagem do subproduto do caju (Anacardium occidentale, L.) em ovinos (páginas 30-35)