• Nenhum resultado encontrado

Répertoires et "classeurs de forme"

No documento Bernard Victorri (páginas 79-82)

Chapitre IV FONCTION D'UN REPERTOIRE

3- Répertoires et "classeurs de forme"

compatibles avec ce que l'on pourrait attendre d'un répertoiredans lequel 𝑋 et 𝑌 représenteraient respectivement les vitesses horizontalesde la tête et de l'œil, 𝐸+ une bande étroite autour de ladroite 𝑢 = −𝑣 et 𝐸+ une bande étroite autour de la droite 𝑢 = 𝑣.En effet, ils ont observé dans un premier temps (première semaine)une baisse radicale du gain (diminution des anciennes "bonnes réponses"),puis une modification du déphasage atteignant presque 180° et une ré-augmentationdu gain au cours de la troisième semaine (augmentationdes nouvelles "bonnes réponses"). L'adaptation se fait donc bien endeux étapes, le changement de phase, correspondant au passage des réponsesde 𝑢 = −𝑣à 𝑢 = 𝑣, ne se produisant qu'après élimination desanciennes bonnes réponses.

2.4- Problème de la mémoire à long terme

Nous avons signalé qu'une autre caractéristique des apprentissagesconsistait en une facilitation du réapprentissage. Même quandune réponse conditionnée s'est éteinte, à la suite d'un arrêt du conditionnement,la reprise de la situation expérimentale, même longtempsaprès, va rétablir le conditionnement beaucoup plus rapidement que lapremière fois. Il existe donc une sorte de mémoire à long terme quigarde une "trace" de l'apprentissage initial après son extinction. Onpeut placer dans cette même catégorie la récupération spontanée d'uneréponse après habituation. Si l'on arrête de présenter suffisammentlongtemps le stimulus habituant, la réponse est restaurée spontanémentlorsque le stimulus et représenté, comme si l'organisme se

"souvenait"qu'il s'agissait, avant les séances d'habituation, d'une "bonne réponse"pour l'organisme.

Il n'y a rien, dans nos répertoires, qui permettent d'expliquerl'existence d'une telle mémoire, et c'est donc une faiblesse importantede notre modèle. Pour rendre compte de ces phénomènes, il faudraitcomplexifier grandement la dynamique sur nos répertoires en rajoutantune sorte de "force de rappel" qui tende à faciliter le retour d'unrépertoire à des états qui ont été stabilisés dans le passé. Uneautre possibilité serait de supposer l'existence d'autres répertoires,recevant les mêmes inputs et codant les mêmes outputs, qui se modifieraientplus lentement que les premiers et dont l’activité, beaucoup plusfaible, ne pourrait influencer la probabilité d'output que quand lepremier répertoire serait déstabilisé (dans un état où ses poids seraienttous faibles). Il suffit, en effet, de supposer que pendant les périodesde déstabilisation, les outputs qui constituent les "nouvellesbonnes réponses" ont un léger

"avantage" de se produire, pour que l'apprentissagese fasse beaucoup plus vite.

classification perceptive de ces apparitions :fuite (classe des prédateurs), chasse (classe des proies),approche sexuelle…

Un classeur de formes est une machine qui tente de simuler ce genre de phénomènes. Il possède donc un espace d'inputs (généralement une partie de ℝ𝑛, chaque dimension correspondant à une caractéristique quantitative des formes à reconnaître), et un nombre fini d'outputs, les différentes classes de formes que l'on veut reconnaître. Son action revient donc à séparer l'espace des inputs en bassins, chaque bassin étant constitué de tous les inputs appartenant à une même classe. On appelle surfaces de décision les frontières entre les différents bassins. La plupart de ces machines fonctionnent par apprentissage (pour une revue, voir Nilsson, 1965 ;Duda et Hart, 1973 ; Young et Calvert, 1974). Un certain nombre de paramètres de la machine sont modifiables, et on essaie de les ajuster au cours d'une phase d'apprentissage de la manière suivante : on présente à la machine un input appartenant à une classe donnée. Suivant que la réponse de la machine est correcte ou non, on modifie les paramètres de manière à augmenter les chances que la machine réponde correctement lors d'une nouvelle présentation de cet input. On opère de la même manière pour toute une série d'inputs, qui constituent l'échantillon d'apprentissage. A la fin de cette période d'apprentissage la machine doit d'une part classer correctement tous les inputs de l'échantillon, et d'autre part avoir une forte probabilité de classer correctement tout autre input qui lui serait présenté.

L'un des premiers classeurs de formes a été le célèbre perceptronde Rosenblatt (1958), dont les surfaces de décision sont desportions d'hyperplans (chaque bassin doit donc être un polyèdre).Mais Aizerman (cfAizerman, Braverman et Rozonoer, 1964a ; 1964b) aintroduit une famille plus générale de machines, dont les surfacesde décision peuvent avoir des formes plus générales que des hyperplanset dont le perceptron est un cas particulier.

Nous allons exposer rapidement la méthode d'Aizerman, que l'onappelle méthode du potentiel, et nous verrons ensuite les analogiesqui existent entre ces machines et nos répertoires.

Aizerman limite d'abord le nombre de classes à deux (il estfacile ensuite de généraliser à un plus grand nombre de classes). L'espacedes inputs que l'on appellera 𝑋 est donc séparé en deux bassins𝐴1et 𝐴2. La méthode consiste à construire une fonction discriminante𝐷sur 𝑋, telle que 𝑥 ∈ 𝐴1 ⇔ 𝐷(𝑥) ≥ 0 et 𝑥 ∈ 𝐴2 ⇔ 𝐷(𝑥) < 0.

Cette fonction est obtenue par récurrence au cours de la périoded'apprentissage. Au temps 𝑡, la machine est caractérisée par une certainefonction 𝐷𝑡 que l'on modifie de la façon suivante : Appelons𝑥𝑡 l'input présenté à l'instant 𝑡.

– si𝑥𝑡 ∈ 𝐴1 et 𝐷𝑡(𝑥𝑡) ≥ 0 ou si 𝑥 ∈ 𝐴2et 𝐷(𝑥) < 0,c'est-à-dire si la machine répond

"correctement", on pose 𝐷𝑡+1 = 𝐷𝑡(onne change pas la fonction discriminante à cette étape).

– si𝑥𝑡 ∈ 𝐴1et 𝐷𝑡(𝑥𝑡) < 0, on pose𝐷𝑡+1(𝑥) = 𝐷𝑡(𝑥) + 𝛼𝑡𝜙(𝑥, 𝑥𝑡) – si 𝑥𝑡 ∈ 𝐴2et 𝐷𝑡(𝑥𝑡) ≥ 0, on pose𝐷𝑡+1(𝑥) = 𝐷𝑡(𝑥) − 𝛼𝑡𝜙(𝑥, 𝑥𝑡)

où, dans les deux derniers cas, 𝛼𝑡 est un coefficient positif ne dépendantque de 𝛼𝑡, et 𝜙 est une fonction définie sur 𝑋 × 𝑋 que l'on appellefonction potentielle. Le choix de cette fonction est relativement arbitraire,mais on choisit habituellement une fonction de la forme𝜙(𝑥, 𝑦) = 𝑓 𝑑 𝑥, 𝑦 où 𝑑 est une distance sur 𝑋 et 𝑓 une fonction décroissante

(

𝜙(𝑥, 𝑥𝑡) est donc une fonction en "cloche" en 𝑥, centrée au point 𝑥𝑡

)

.

Sans entrer dans le détail, disons que l'on démontre alors quequel que soit l'état initial de la machine (donc quelle que soit lafonction𝐷0) la suite 𝐷𝑡 va converger au bout d'un nombre fini d'étapesvers une fonction 𝐷 qui sépare correctement l'échantillon d'apprentissage,si d'une part on choisit correctement les coefficients 𝛼𝑡 et sid'autre part l'échantillon est effectivement séparable, c'est-à-dires'il existe une fonction séparant les deux bassins parmi une familleassez vaste de fonctions, déterminée par la forme de la fonction potentielle.

Revenons alors à nos répertoires. Supposons que la variétéréceptrice 𝑋 soit l'espace des formes que l'on veut classer et que lavariété effective 𝑌 soit l'ensemble fini de 𝑚 classes :𝑦 = 𝑦1, … , 𝑦𝑚 ,chaque élément 𝑟𝑖 admettant comme champ effecteur l'un des outputs 𝑦𝑘(𝑖) :𝑉𝑖== 𝑦𝑘(𝑖) et𝜇𝑖(𝑦𝑘(𝑖)) = 1.

Appelons 𝐴1, …,𝐴𝑘, …,𝐴𝑚 les bassins de 𝑋 correspondant auxclasses 𝑦1, …, 𝑦𝑘, …,𝑦𝑚. Il est clair qu'en choisissant comme renforcement𝐸+= 𝑚𝑘=1 𝐴𝑘 × 𝑦𝑘 notre répertoire va se comporter comme un classeur de formes, c'est-à-direqu'après stabilisation, la probabilité de l'output 𝑦𝑘 lors dela présentation d'un input 𝑥 ∈ 𝐴𝑘 sera très grande.

Il faut noter tout de suite une différence fondamentale entrenos répertoires et les classeurs de forme classiques. Dans nos répertoires,la relation input-output est probabiliste, alors qu'elle estdéterministe dans les machines. Cependant, malgré cette différence1, nous allons voir qu'il existe une ressemblance frappante entre laméthodedu potentiel et les répertoires à renforcement sélectif.

En effet, limitons notre ensemble d'outputs à deux éléments :𝑌 = 𝑦1, 𝑦2 et appelons 𝑃𝑡(𝑥, 𝑦𝑘) la probabilité de l'output 𝑦𝑘 si l'input𝑥 est présenté à l'instant 𝑡. On a :

𝑃𝑡(𝑥, 𝑦𝑘) = 𝑖∈𝐼𝑥∩𝐼𝑘𝑧𝑖(𝑡)𝜓𝑖(𝑥) 𝑧𝑖(𝑡)𝜓𝑖(𝑥)

𝑖∈𝐼𝑥

où 𝐼𝑘 est l'ensemble des indices i tels que 𝑉𝑖 = 𝑦𝑘 .

Appelons 𝐷𝑡 la fonction :𝐷𝑡(𝑥) = 𝑖∈𝐼𝑥∩𝐼1𝑧𝑖(𝑡)𝜓𝑖(𝑥)− 𝑖∈𝐼𝑥∩𝐼2𝑧𝑖(𝑡)𝜓𝑖(𝑥)

La fonction 𝐷𝑡 peut être considérée comme l'analogue de la fonctiondiscriminante puisque 𝐷𝑡(𝑥) > 0 ⇔ 𝑃𝑡(𝑥, 𝑦1) > 𝑃𝑡(𝑥, 𝑦2).

Regardons alors comment agit le renforcement sur la fonction 𝐷𝑡.Supposons que l'on présente l'input 𝑥𝑡 à l'instant 𝑡 et que l'on aitl'output 𝑦1. Les seuls coefficients 𝑧𝑖 qui vont alors être modifiésvérifient 𝑖 ∈ 𝐼1 et 𝑥𝑖 très proche de 𝑥𝑡

(

puisque (𝑥𝑡, 𝑦1) ∈ 𝐶𝑖

)

. Lerenforcement va donc consister à ajouter à 𝐷𝑡 une fonction positive dela forme 𝛼 𝑧 𝑡 𝑓 𝑑 𝑥, 𝑥𝑡 puisque tous les 𝜓𝑖 des éléments renforcésseront de cette forme (𝑓 étantune courbe en "cloche"). De même, si l'on a l'output𝑦2, on retranchera une fonction de cette forme. Les deux différencesà signaler avec la méthode du potentiel, en plus du caractère probabilistede l'output, sont :

– les coefficients𝛼 𝑧 𝑡 dépendent de la valeur des poidsà l'instant 𝑡, alors que dans la méthode du potentiel ils ne dépendentpas des poids, mais seulement de𝑡.

– le renforcement a lieu, que la réponse soit bonne ou mauvaise,et pas seulement quand elle est mauvaise.

1. Cette différence provient en partie d'une différence dans les buts poursuivis : nous cherchons, avec nos répertoires, à modéliser le fonctionnement du système nerveux, tandis que les concepteurs de machines cherchent en général plutôt à en simuler les performances.

Il serait intéressant de pousser plus loin cette comparaison enanalysant les avantages respectifs des deux modèles (performances,temps moyen d'apprentissage…). Pour ce qui est de cette étude, nousretiendrons essentiellement les deux conclusions suivantes :

– dans certains conditions, nos répertoires peuvent jouer lerôle de classeurs de forme.

– l'analogie étroite entre les répertoires à renforcement sélectifet certains classeurs de forme (qui ont fait leurs preuves !) nepeut que confirmer l'espoir que ce type de répertoires représente unemodélisation intéressante des systèmes perceptifs.

No documento Bernard Victorri (páginas 79-82)