• Nenhum resultado encontrado

Architecture des réseaux de neurones

Partie II Définition d’un système d’aide à la décision pour anticiper et gérer des

Cas 1 Agrégation des avis Cas 2 : Agrégation des priorités 1. Moyenne géométrique des avis pour

6.3. Les réseaux de neurones

6.3.3. Architecture des réseaux de neurones

La fonction sigmoïde

Cette fonction est l'équivalent de la fonction seuil lors de certains apprentissages pour lesquels la fonction d'évaluation du neurone doit être dérivable (Cf. Figure 31). L’expression de cette fonction est la suivante (Cf. Eq.3) :

[Eq.3]

)

exp(

1 ) 1

(v v

f

+

=

Figure 31 : Fonction d’évaluation de type sigmoïde

6.3.1.2. Les neurones formels dynamiques

Afin de modéliser l’évolution de certains processus dans le temps, les neurones dits dynamiques intègrent ce paramètre. Les valeurs temporelles interviennent soit de manière discrète, soit de manière continue. A chaque cas est associée une fonction d’activation f (Johannet, 2006, a).

Considérons le cas des neurones dynamiques à temps discret, leur potentiel se calcule de la manière suivante :

=

=

d

j

t jej t

v

1

) ( )

( θ [Eq.4]

Ils actualisent leur sortie à t'instant t+1 selon l'équation aux différences suivante : ))

( ( ) 1

(t f v t

s + = [Eq.5]

− de la complexité des opérations à réaliser (présence de neurones intermédiaires dits cachés entre les entrées et les sorties) ;

− du choix de la fonction d’activation.

Quatre types de réseaux de neurones sont définis à partir des critères énumérés ci-dessus.

− les réseaux non bouclés avec des neurones cachés ou non cachés ;

− les réseaux de neurones bouclés comprenant des neurones cachés ou non cachés.

6.3.3.1. Les réseaux de neurones non bouclés ou réseau statique

Les réseaux non bouclés réalisent une transformation non linéaire entre les entrées et les sorties. Ces derniers peuvent être soit uni-couche soit multicouches. Ils sont dits statiques car le temps n’intervient dans la résolution du problème.

Les réseaux non bouclés à une seule couche (Cf. Figure 32) :

Un réseau est non bouclé lorsque l’information circule des entrées vers les sorties sans bouclage. Les réseaux peuvent être constitués de ns neurones de sortie (Cf. Figure 32).

e1 e2 … en

y

Entrées Couches de Neurones de sortie

f f f

y y

e1 e2 … en

yy

Entrées Couches de Neurones de sortie

ff ff ff

yy yy

Figure 32 : Réseau de neurones non bouclé à une couche

Les réseaux non bouclés multicouche (Cf. Figure 33) sont organisés en couches comme leur nom l’indique. L’architecture la plus répandue est celle du Perceptron Multicouches, spécialement utilisé pour classifier des données.

Selon le problème à résoudre, l'identification de fonction ou la classification, les neurones de sortie auront une fonction d'activation linéaire (Figure 33-a) pour déterminer une sortie continue, ou sigmoïdale, pour effectuer une prise de décision entre deux classes (Figure 33-b).

e1 e2 en

f f Couche de

neurones cachés Couche de neurones de sortie

Entrées -b-

y

f f f

y y

e1 e2 en

f f Couche de

neurones cachés Couche de neurones de sortie

Entrées -b-

yy

ff ff ff

yy yy

e1 e2 en

f f Couche de

neurones cachés Neurone de sortie

Entrées -a-

Linéaire

yy

Figure 33 : Réseaux de neurones non bouclés mult-icouches

6.3.3.2. Les réseaux de neurones bouclés ou réseaux dynamiques

L’architecture des réseaux de neurones peut être de type bouclé, la sortie de certains neurones est alors renvoyée sur certaines entrées de la couche inférieure. Ce bouclage confère ainsi au réseau une propriété dynamique lui permettant de prédire l’évolution des états d’un objet.

Les réseaux de type bouclé, composés de neurones à temps discret, sont représentés sous une forme particulière dite canonique (Nerrand, 1993). Ils sont alors composés d’un réseau statique et d’un retard temporel reporté à l'extérieur, noté t (Cf. Figure 34)

e1 e2 … en

ff Couche de

neurones cachés Couche de neurones de sortie

Entrées

f f f

y y y

t-1

e1 e2 … en

ff Couche de

neurones cachés Couche de neurones de sortie

Entrées

ff ff ff

y y y

y y y

t-1

Figure 34 : Forme canonique des réseaux de type bouclé

6.3.3.3. Propriété fondamentale des réseaux de neurones : l’approximation universelle parcimonieuse

La propriété fondamentale des réseaux de neurones est l’approximation universelle parcimonieuse. Cette expression traduit deux propriétés distinctes : d’une part les réseaux de neurones sont des approximateurs universels, et, d’autre part, une approximation à l’aide de réseau de neurones nécessite en général, moins de paramètres ajustables que les approximateurs usuels (polynômes) (Dreyfus, 2002).

La propriété d’approximation universelle des réseaux statique, peut s’énoncer ainsi (Cybenko, 1989 ; Funahashi, 1989 ; Rivals, 1995 ; Stoppiglia, 1997) « pour toute fonction déterministe suffisamment régulière, il existe au moins un réseau de neurones non bouclé, possédant une couche de neurones cachés et un neurone de sortie linéaire, qui réalise une approximation de cette fonction et de ses dérivées successives, au sens des moindres carrés, avec une précision arbitraire. »

Cette propriété s'applique au réseau représenté ci-dessus (Figure 33 –a).

Lorsque l’on cherche à modéliser un processus à partir de données, on recherche toujours à obtenir des résultats les plus satisfaisants possibles avec un nombre minimum de paramètres ajustables. Hornik (1994) a démontré que (Stoppiglia, 1997) :

« Si le résultat de l’approximation (sortie du réseau de neurones) est une fonction non linéaire des paramètres ajustables, elle est plus parcimonieuse que si elle est une fonction linéaire de ces paramètres. De plus, pour les réseaux de neurones à fonction d’activation sigmoïdales, l’erreur commise dans l’approximation varie comme l’inverse du nombre de neurones cachés, et, elle est indépendante du nombre de variables de la fonction à approcher. Par conséquent, pour une précision donnée, donc pour un nombre de neurones cachés donné, le nombre de paramètres du réseau est proportionnel au nombre de variable de la fonction à approcher ».

C'est grâce à cette propriété fondamentale que de nombreux travaux sur l'identification de fonction sont réalisés avec des réseaux de neurones ; ces derniers pouvant être vus comme une brique de base de l'identification en non linéaire. Il est cependant nécessaire de préciser que la propriété d'approximation universelle n'est qu'une preuve d'existence, elle ne donne pas d'éléments aidant à trouver la solution.