• Nenhum resultado encontrado

Caractéristiques de l'apprentissage pour un répertoire

No documento Bernard Victorri (páginas 76-79)

Chapitre IV FONCTION D'UN REPERTOIRE

2- Caractéristiques de l'apprentissage pour un répertoire

Dans le cas d'un répertoire à renforcement sélectif on ne peutpas faire une telle approximation, mais le fait que 𝑝𝑖 𝑧 𝑡 croisseaussi avec 𝑧𝑖(𝑡)permet de penser que la forme de la courbe 𝑧𝑖(𝑡)ne sera pas très différente.Ainsi, si l'on considère de plus le fait que le pourcentagede "bonnes réponses" est directement relié à la valeur des poids quitendent vers 1, on peut penser que les courbes d'apprentissage de nosrépertoires auront la forme en S caractéristique des apprentissagescomplexes (voir chapitre II).

2.2- Généralisation

Une autre caractéristique des apprentissages par un organismeest le phénomène de généralisation : si l'on renforce une réponse del'organisme à un input donné (le 1000 Hz de la sonnerie du chien dePavlov), l'animal va avoir tendance à produire la même réponse à uninput voisin non renforcé. Pour nos répertoires, la situation analogueconsistera à présenter au début d'apprentissage plusieurs fois le mêmeinput 𝑥, et de tester comment cela a modifié la probabilité d'outputpour les inputs voisins de x.

Pour un répertoire disjoint, il est clair que la généralisationva être totale mais limitée : pour tous les inputs appartenant au même𝑋𝛼que 𝑥, la probabilité de réponse sera modifiée autant que pour 𝑥.Mais dès que l'on quitte 𝑋𝛼, le renforcement en 𝑥 n'aura plus aucuneffet. Par contre, pour un répertoire à renforcement sélectif, lagénéralisation sera plus graduelle et plus étendue. En effet, mêmesi la taille moyenne des champs effecteurs et récepteurs est du mêmeordre de grandeur que pour un répertoire disjoint, il ne s'agit qued'une moyenne. En fait, il y aura des champs récepteurs et effecteursbeaucoup plus grands et d'autres beaucoup plus petits que cette moyenne,et la probabilité d'output va être modifiée sur de plus grandes distances.Mais cette modification sera de moins en moins importante aufur et à mesure que l'on s'éloigne de𝑥.

Là aussi, le répertoire à renforcement sélectif est donc plusproche de la réalité biologique que le répertoire disjoint. Ce pointest particulièrement important. Grâce à ce type de généralisation,le répertoire à renforcement sélectif va présenter dès les premiersstades de

Figure 14 :Forme en "S" de la fonction𝑧𝑖(𝑡) =𝑧 𝑧𝑖(0)

𝑖(0)+ 1−𝑧𝑖 0 𝑒−𝐾𝑖𝑡

Le point d'inflexion est toujours obtenu pour 𝑧𝑖(𝑡) =12 𝑧𝑖

𝑡 1

1 2

𝑧𝑖(0) 𝜀

l'apprentissage, des modifications de la probabilité d'outputqui s'étendent à tout 𝐸. Il y aura donc très vite une capacitéde discrimination grossière, qui s'affinera progressivement avec letemps, comme cela se passe dans les apprentissages biologiques. Aucontraire, le répertoire disjoint aura une évolution beaucoup moinsgraduelle. Tant que toutes les "cases" 𝑋𝛼 ne sont pas "touchées", laprobabilité d'output pour certains inputs ne peut pas être modifiée.

2.3- Réversibilité de l'apprentissage

L'une des motivations les plus importantes de l'introductionde notre modèle était de pouvoir rendre compte des grandes capacitésd'adaptation des systèmes perceptifs. En particulier nous avons vuà quel point le système visuel de l'homme pouvait s'adapter au port delunettes déformantes.

Porter des lunettes déformantes revient pour nos répertoiresà changer radicalement la zone 𝐸+ de renforcement positif. Or, mêmesi le répertoire a été d'abord stabilisé à un certain environnement(donc à un certain𝐸+), les résultats du chapitre précédent prouvent que le répertoire va se re-stabiliser si l'on introduit un nouvel 𝐸+ à la place de l'ancien. Examinons en détail ce qui va se passer. Appelons𝜆𝑖 la valeur du poids de l'élément𝑟𝑖 stabilisé sous l'actionde 𝐸+, et 𝜆𝑖 la valeur stabilisée sous l'action de (E+)'. l’évolution de l'adaptation va être régie par l'équation :

d𝑧𝑖(𝑡)

d𝑡 = 𝜆𝑖 − 𝑧𝑖 𝑡 𝑎+𝑐𝑖+′+ 𝑎𝑐𝑖−′ 𝑝𝑖 𝑧 𝑡 avec 𝑧𝑖(0) = 𝜆𝑖 Regardons les deux cas où les modifications vont être importantes :

– si 𝜆𝑖 = 𝜀 et 𝜆𝑖 = 1 : on aura au début de l'apprentissage 𝜆𝑖 − 𝑧𝑖 𝑡 et 𝑝𝑖 𝑧 0 tous les deux grands, l'évolution de cespoids va être très rapide. Le répertoire va vite "perdre" des anciennesbonnes réponses.

– si 𝜆𝑖 = 1 et 𝜆𝑖 = 𝜀 : 𝜆𝑖 − 𝑧𝑖 𝑡 va être toujours aussigrand mais 𝑝𝑖 𝑧 0 va être très faible. Le répertoire mettra doncbeaucoup plus de temps à acquérir les nouvelles bonnes réponses.

On peut donc prédire que l'adaptation va se réaliser en deuxtemps. D'abord abolition des anciennes bonnes réponses, puis acquisitiondes nouvelles. Il est intéressant de noter que cette prédictionest confirmée pour les résultats quantitatifs de certaines expériencesd'adaptation.

Ainsi Gonshor et Melville Jones (1976) ont étudiél'adaptation du réflexe vestibulo-oculaire à des lunettes qui inversaientl'image rétinienne. Ce réflexe consiste à compenser lesmouvements de la tête par des mouvements de l'œil en sens opposé, demanière à maintenir constante la direction du regard. Ces mouvementsde compensation peuvent être observés même en l'absence d'inputs visuels(dans le noir) ce qui permet d'étudier ce réflexe indépendammentde toute boucle de rétroaction rétinienne. On peut quantitativementcaractériser ce réflexe, dont le siège se situe probablement dans lecervelet, en mesurant la vitesse angulaire de la tête 𝑢 (l'input) etla vitesse de l'œil𝑣 (l'output). Dans des conditions normales on a𝑣 = −𝑢. Mais si l'on porte des lunettes renversantes cette relationdevient 𝑣 = 𝑢.

Gonshor et Melville Jones ont étudié l'output quand l'inputétait sinusoïdal, en se limitant aux mouvements horizontaux de latête et de l'œil. L'output est alors aussi sinusoïdal de même fréquence(si l'on fait abstraction des mouvements saccadiques qui interrompentrégulièrement le mouvement continu de l'œil) et ces auteursont mesuré le gain et le déphasage du système au cours de l'adaptationaux lunettes renversantes. Les résultats qu'ils ont obtenus sont toutà fait

compatibles avec ce que l'on pourrait attendre d'un répertoiredans lequel 𝑋 et 𝑌 représenteraient respectivement les vitesses horizontalesde la tête et de l'œil, 𝐸+ une bande étroite autour de ladroite 𝑢 = −𝑣 et 𝐸+ une bande étroite autour de la droite 𝑢 = 𝑣.En effet, ils ont observé dans un premier temps (première semaine)une baisse radicale du gain (diminution des anciennes "bonnes réponses"),puis une modification du déphasage atteignant presque 180° et une ré-augmentationdu gain au cours de la troisième semaine (augmentationdes nouvelles "bonnes réponses"). L'adaptation se fait donc bien endeux étapes, le changement de phase, correspondant au passage des réponsesde 𝑢 = −𝑣à 𝑢 = 𝑣, ne se produisant qu'après élimination desanciennes bonnes réponses.

2.4- Problème de la mémoire à long terme

Nous avons signalé qu'une autre caractéristique des apprentissagesconsistait en une facilitation du réapprentissage. Même quandune réponse conditionnée s'est éteinte, à la suite d'un arrêt du conditionnement,la reprise de la situation expérimentale, même longtempsaprès, va rétablir le conditionnement beaucoup plus rapidement que lapremière fois. Il existe donc une sorte de mémoire à long terme quigarde une "trace" de l'apprentissage initial après son extinction. Onpeut placer dans cette même catégorie la récupération spontanée d'uneréponse après habituation. Si l'on arrête de présenter suffisammentlongtemps le stimulus habituant, la réponse est restaurée spontanémentlorsque le stimulus et représenté, comme si l'organisme se

"souvenait"qu'il s'agissait, avant les séances d'habituation, d'une "bonne réponse"pour l'organisme.

Il n'y a rien, dans nos répertoires, qui permettent d'expliquerl'existence d'une telle mémoire, et c'est donc une faiblesse importantede notre modèle. Pour rendre compte de ces phénomènes, il faudraitcomplexifier grandement la dynamique sur nos répertoires en rajoutantune sorte de "force de rappel" qui tende à faciliter le retour d'unrépertoire à des états qui ont été stabilisés dans le passé. Uneautre possibilité serait de supposer l'existence d'autres répertoires,recevant les mêmes inputs et codant les mêmes outputs, qui se modifieraientplus lentement que les premiers et dont l’activité, beaucoup plusfaible, ne pourrait influencer la probabilité d'output que quand lepremier répertoire serait déstabilisé (dans un état où ses poids seraienttous faibles). Il suffit, en effet, de supposer que pendant les périodesde déstabilisation, les outputs qui constituent les "nouvellesbonnes réponses" ont un léger

"avantage" de se produire, pour que l'apprentissagese fasse beaucoup plus vite.

No documento Bernard Victorri (páginas 76-79)