Algorithmes d’inf´erence exacte - Inf´erence probabiliste

Partie II Contributions en reconnaissance de formes 75

5.5 Inf´erence probabiliste

5.5.2 Algorithmes d’inf´erence exacte

Les algorithmes d’inférence exacte les plus réputés sont l’algorithme de passage de messages de Pearl [Pearl 88], l’algorithme d’élimination de Bucket [Dechter 98] et l’algorithme d’arbre de jonction [Jensen 90].

Par exemple, l’algorithme d’élimination de Bucket [Dechter 98] consiste à marginaliser la distribution de probabilité jointe d’un réseau, en procédant variable par variables. Chaque marginalisation sur une variable X_i donne lieu à une somme des probabilités de cette variable.

Parfois, cette somme vaudra 1, ce qui conduira à l’élimination de la variable Xi. On procédera alors à la marginalisation sur une des variables restantes et ainsi de suite jusqu’à ce que la distribution soit marginalisée.

Le problème de cet algorithme est que l’ordre dans lequel les variables sont éliminées déter- mine la quantité de calcul nécessaire pour marginaliser la distribution de probabilités jointe et donc la complexité de l’algorithme.

L’algorithme de passage de messages [Pearl 88] est le plus courant. Nous d´etaillons cet algorithme dans la section ci-dessous (section 5.5.2.1), car c’est un de ceux que nous avons utilis´es dans nos approches (voir partie II).

5.5.2.1 L’algorithme de passage de messages

Dans cette technique, à chaque nœud est associé un processeur qui peut envoyer des messages de fa¸con asynchrone à ses voisins, jusqu’à ce qu’un équilibre soit atteint, en un nombre fini d’étapes. Cet algorithme ne s’applique qu’aux arbres. Donnons ici une définition d’un arbre :

soit un graphe G possédant n nœuds.G est un arbre si et seulement si G est sans cycle et qu’il possède n−1 arêtes. Un graphe sans cycle est un graphe dans lequel il n’est pas possible de revenir à un point de départ sans faire le chemin en sens inverse. Ceci engendre le fait que chaque nœud d’un arbre n’a qu’un seul parent (sauf la racine qui n’a aucun parent).

Cette méthode a été étendue aux réseaux quelconques pour donner l’algorithme de l’arbre de jonction qui fera l’objet de la section 5.5.2.3.

L’algorithme de passage de messages et les diff´erents types de messages sont expliqu´es ci- dessous :

– soit G(V, ε), un graphe acyclique orient´e (un arbre), o`u V est l’ensemble de nœuds, et ε celui des arcs,

– soitX ={X_v :v ∈ V}un ensemble de variables al´eatoires. Chaque variableX_v correspond

a un nœudv du graphe. Pour chaque nœudv ∈V, on d´efinitπv, l’ensemble de ses parents dans le graphe,

– soitθ, l’ensemble de probabilités conditionnelles{θ_v}={p(x_v|x_π_v)},v ∈V, alors le couple (G, θ) définit un réseau Bayésien.

– SoitE ∈X le sous-ensemble des variables observ´ees de E,

– soit X_i ∈X une variable quelconque, associ´ee au nœudi de G(V, ε),

– Soit N_i l’ensemble des nœuds parents observ´es de i, et D_i l’ensemble des nœuds enfants observ´es. La figure 5.3 montre un nœudi, l’ensemble de ses nœuds parentsNi et l’ensemble de ses nœuds enfantsD_i.

– soitN_X_i l’ensemble des variables associ´ees aux nœuds deN_i etD_X_i l’ensemble des variables associ´ees aux nœuds de Di.

i N

ⁱ

D

ⁱ

Figure 5.3 – Sous-ensemble d’un arbre : un nœud, son parents et ses enfants

On va alors distinguer deux types de messages, λetπ : λ(Xi)∝p(DXi|Xi) et π(Xi)∝p(Xi,N_X_i).

De plus, soit Ei ∈E, une variable observ´ee. Alors : P(Xi|Ei =e_i)∝λ(Xi)π(Xi)

Expliquons maintenant comment calculer chaque type de message : Calcul des messages λ en chaque nœud i :

Pour chaque nœud j enfant du nœud i,i. e. pour chaque variable X_j ∈D_X_i, o`u i,j ∈V et i 6=j, on a :

λXj(Xi =x_i) =X

p(Xj =x_j|Xi =x_i)λ(Xj =x_j)

λ_X_j(Xi = xi) signifie que l’on fait une sommation sur toutes les valeurs possibles xj de la variableX_j.

Posons X ={X₁,X₂, . . . ,X_n}. Les messagesλse calculent de la fa¸con suivante :

– Si la variable Xi est observée, alors λ(Xi) est un vecteur de taille égale au domaine de X_i,i. e. le nombre de valeurs possible que la variableX_i peut prendre. Ce vecteur vaut 0 partout sauf à la place de la valeur observée où il vaut 1.

– Si le nœud i est une feuille de l’arbre, alors le vecteurλ(Xi) vaut 1 partout.

– Sinon,λ(Xi =x_i) =Q

Xj ∈D_Xi λXj(Xi =x_i) Calcul des messages π en chaque nœud i :

Soit j l’unique nœud parent de i,i. e.soitXj ∈ NXi, o`u i,j ∈V eti 6=j. On a πXi(Xj =xj) =π(Xj =xj) Y

X_k ∈^D_Xi ^Xi

λX_k(Xj =xj)

PosonsX ={X₁,X₂, . . . ,X_n}. Les messages π se calculent de la fa¸con suivante :

– Si la variableX_i est observée, alorsλ(X_i) =π(X_i) est un vecteur de taille égale au domaine de X_i,i. e.le nombre de valeurs possible que la variableX_i peut prendre. Ce vecteur vaut 0 partout sauf à la place de la valeur observée où il vaut 1.

– Si le nœudi est la racine de l’arbre (i. e. sii n’a pas de parent), alors π(X_i) =p(X_i) – Sinon,π(Xi =x_i) =P

xjp(Xi =x_i|Xj =x_j)πXi(Xj =x_j)

5.5.2.2 Exemple de propagation d’un message par l’algorithme de Pearl

Dans cette section, nous allons d´erouler l’algorithme de passage de messages de Pearl, que l’on vient d’expliquer, sur un exemple simple, pour bien en comprendre le principe :

Enonc´´ e de l’exemple :

Reprenons le réseau Bayésien représenté de la figure 5.1 :

Figure 5.4 – Exemple d’un réseau Bayésien à 3 variables La description des nœuds est données ci-dessous :

– Le nœud Pluie représente la variable aléatoire discrète M. Cette variable est qualitative et prend ses valeurs dans le domaine{nulle =m₀,moyenne=m₁,forte =m₂}

– La variableFleurs représente la variable aléatoire discrèteF. Cette variable est qualitative et prend ses valeurs dans le domaine{bonnepousse=Bo,mauvaisepousse =Ma}

– Le nœudRandonnee représente la variable aléatoire discrèteR. Cette variable est qualitative et prend ses valeurs dans le domaine {oui =O,non=N}

Les tables de probabilit´es conditionnelles des variables M, F et R sont donn´ees dans les tableaux 5.1, 5.2 et 5.3 respectivement.

Arriv´ee d’une nouvelle observation :

Supposons que l’on a une nouvelle observation de la valeurm₂ sur la variable M. Par contre, on n’observe pas du tout les autres valeursm0 et m₁.

Cette observation s’appelle´evidence et on ´ecrite_M ={0,0,1}.

On souhaiterait savoir comment les autres variables vont réagir étant donnée cette observation.

M P(M) m₀ 0.30 m₁ 0.60 m₂ 0.10

Table 5.1 – Table de probabilit´es de la variableM P(R|M) O N

m₀ 0.85 0.15 m₁ 0.50 0.50 m₂ 0.05 0.95

Table 5.2 – Table des probabilités conditionnelles de la variableR étant donnée la variableM Pour ce faire, on va propager le message que fournit l’évidence.

Commen¸cons par calculer les messages au niveau de la variable observ´ee, car le calcul des messagesλetπ, au niveau des variables observ´ees, est un cas trivial :

Calcul des messages λ et π au nœud observ´e M : – Calcul des messages λ et π :

M est observ´e. On a donc λ(M) =π(M) =



 0 0 1





– Le message à transmettre à l’enfant R est calculé comme suit : πR(M) =π(M)·λF(M) =



 0 0 1



·λF(M =m₂) Or,

λ_F(M =m₂) =P

f p(F =f|M =m₂)λ(F =f) =

p(F =Bo|M =m₂)λ(F =Bo) +p(F =Ma|M =m₂)λ(F =Ma) = 0.90∗1 + 0.10∗1 = 1

DoncπR(M) =



 0 0 1



·1 =



 0 0 1





– De même, le message à transmettre à l’enfant F est calculé comme suit : πF(M) =π(M)·λR(M) =



 0 0 1





On peut ensuite calculer les messages au niveau des deux autres nœuds R et F. Les deux autre nœuds sont des feuilles de l’arbre. Le calcul des messages λ sera donc trivial au niveau de ces nœuds. On peut traiter R et F dans n’importe quel ordre car aucun de ces nœuds n’est racine de l’arbre, et aucun de ces nœuds n’est observ´e.

P(F|M) Bo Ma m₀ 0.20 0.80 m₁ 0.75 0.25 m₂ 0.90 0.10

Table5.3 – Table des probabilités conditionnelles de la variable F étant donnée la variable M

Calcul des messages λet π au nœud R :

– Calcul du message λ :

R est une feuille donc on a λ(R) = 1

– Calcul du message π :

R n’est ni une variable observ´ee, ni la racine de l’arbre. On a donc : π(R) =p(R|M).π_R(M) =

0.85 0.5 0.05 0.15 0.5 0.95



 0 0 1



, soitπ(R) = 0.05

0.95

– Enfin, on aP(R|M =e_M)∝λ(R)·π(R) = 0.05

0.95

On peut en conclure que l’observation d’une pluie forte peut conduire (avec un risque de 5%), `a l’annulation d’une randonn´ee.

Calcul des messages λet π au nœud F :

– Calcul du message λ :

F est une feuille donc on aλ(F) = 1

– Calcul du message π :

F n’est ni une variable observ´ee, ni la racine de l’arbre. On a donc : π(F) =p(F|M)·πF(M) =

0.20 0.75 0.90 0.80 0.25 0.10



 0 0 1



, soitπ(R) = 0.90

0.10

– Enfin, on aP(F|M =eM)∝λ(F)·π(F) = 0.90

0.10

On peut en conclure que l’observation d’une pluie forte peut conduire (avec un risque de 10%), `a la pousse des fleurs.

5.5.2.3 Algorithme d’arbre de jonction

Le problème de l’algorithme de passage de messages de Pearl est qu’il ne s’applique qu’aux arbres. Une généralisation a donc été proposée : l’algorithme d’arbre de jonction [Jensen 90], qui permet de faire de l’inférence sur n’importe quel type de graphe.

Cet algorithme peut être vu comme une combinaison des idées de l’algorithme d’élimination et l’algorithme de passage de messages. L’idée de base est de transformer le graphe acycliqueG du réseau en un arbre non orientéT. Cette transformation opère en trois étapes :

– la première étape est la moralisationdu grapheG. Elle consiste à«marier»deux à deux les parents de chaque nœud, en les reliant par un arc non orienté. A l’issue de cette étape, il reste encore des arcs orientés entre chaque nœud et chacun de ses parents. On finit de moraliser le graphe en enlevant des directions de chaque arc orienté. On aboutit alors au graphe moraliséG^m.

– La deuxième étape est la triangulation du graphe G^m. Cette étape consiste à extraire de G^m un ensemble de cliques de nœuds. Une clique est un sous-graphe du graphe G^m dont tous les nœuds sont connectés deux à deux. Le grapheG^t obtenu est triangulé quand l’ensemble de ses nœuds peuvent être éliminés. Un nœud peut être éliminé s’il appartient

a une clique dans le graphe.

– Cette dernière étape correspond à la construction de l’arbre de jonction. A partir du graphe G^t obtenu à l’issue de la triangulation, le problème est de calculer l’arbre couvrant de poids minimum. Pour ce faire, on va procéder à l’élimination des nœuds qui font partie d’une clique. Ce processus d’élimination n’est pas sans rappeler l’algorithme d’élimination de Bucket. L’arbreT obtenu est un arbre non orienté, dans lequel les nœuds sont des cliques.

L’algorithme de passage de messages est ensuite lancé sur cet arbre de jonctionT et permet de calculer les probabilités marginales de tous les nœuds pour chaque clique. La complexité de cet algorithme est déterminée par la plus grande clique.

Pour résumer, les algorithmes d’inférence exacte calculent les probabilités marginales en exploitant systématiquement la structure graphique. On cherche à exploiter l’information d’in- dépendance conditionnelle encodée par les arcs, dans les graphes.

De nombreux modèles graphiques probabilistes, comme les modèles de Markov cachés, ou les réseaux dont le graphe est déjà un arbre ont affaire à ce type d’algorithmes. Mais le problème de ces algorithmes est leur complexité, dépendante de la taille des graphes, du fait que les graphes sont fortement connectés ou non.

Pour pallier ce problème, on peut utiliser des méthodes d’inférence approximative, qui ont une complexité moindre. De la même fa¸con que l’on manipule des probabilités initiales inexactes, car elles sont souvent issues d’une estimation, obtenue grâce à des méthodes d’apprentissage de paramètres (voir section 5.4), les méthodes d’inférence approximative vont fournir des probabi- lités a posteriori (ce sont les probabilités obtenues par inférence) approximatives.

No documento Modèles graphiques probabilistes pour la reconnaissance de formes (páginas 98-103)