• Nenhum resultado encontrado

Partie II Contributions en reconnaissance de formes 75

5.3 Les r´eseaux Bay´esiens

Soit G(V, ε), un graphe acyclique orient´e, o`uV est l’ensemble de nœuds, etεcelui des arcs.

Ce graphe peut ˆetre statique, ou dynamique. Dans ce deuxi`eme cas on parlera de r´eseau Bay´esien dynamique [Murphy 02]. Ces graphes ont la particularit´e d’´evoluer au cours du temps : des arcs peuvent ˆetre ajout´es entre chaque pas de temps. Le coˆut de l’inf´erence probabiliste sera donc

plus important dans ce genre de r´eseau.

Soit X ={Xv :v ∈ V}un ensemble de variables al´eatoires. Chaque variable Xv correspond

`a un nœudv du graphe. Pour chaque nœudv ∈V, on d´efinitπv, l’ensemble de ses parents dans le graphe.|xπv d´esigne l’ensemble des valeurs observ´ees pour les parents dev.

Soit θ, l’ensemble de probabilit´es conditionnelles{θv}={p(xv|xπv)},v ∈V.

Remarque : La notation p(xv) signifie que l’on calcule p(Xv = xv) o`u xv est une valeur possible pour la variable Xv. Cette notation est un abus de langage mais all`ege les expressions et am´eliore la lisibilit´e. Dans la suite de ce manuscrit, lorsque nous lironsp(a), il faudra com- prendre que l’on calculep(A=a), o`ua est une valeur possible pour la variableA. Les caract`eres minuscules repr´esentent les valeurs et les majuscules les variables.

Le couple (G, θ) d´efinit un r´eseau Bay´esien et la distribution de probabilit´e jointe associ´ee `a ce r´eseau, sur l’ensembleV des variables du mod`ele, est d´efinie comme suit :

p(x) = Y

vV

p(xv|xπv) (5.1)

Cette probabilit´e jointe est en fait une expression simplifi´ee. La simplification a pu ˆetre obtenue grˆace au raisonnement suivant :

posons X = {X1,X2, . . . ,Xn}. La probabilit´e jointe de ces variables est not´ee p(x) = p(x1,x2, . . . ,xn).

Grˆace `a la r`egle de Bayes [Bayes 63], qui stipule que p(x1,x2) =p(x2|x1)×p(x1), la probabilit´e jointe peut ˆetre d´ecompos´ee de la fa¸con suivante :

p(x) =p(x1,x2, . . . ,xn) =p(xn|xn−1, . . . ,x2,x1)×. . .×p(x2|x1)p(x1) =p(x1)

n

Y

i=2

p(xi|xi−1, . . . ,x1)(5.2) Supposons maintenant que les probabilit´es conditionnelles de certaines variables Xi ne d´e-

pendent que d’un sous-ensemble des pr´ed´ecesseurs deXi, les pr´ed´ecesseurs deXi´etantX1,X2. . .Xi−1. NotonsXπi l’ensemble de ces pr´ed´ecesseurs. On peut alors ´ecrire p(xi|xi−1, . . . ,x1) =p(xi|xπi).

Ceci nous permet de simplifier la d´ecomposition obtenue dans l’´equation 5.2 de la fa¸con suivante : p(x) =p(x1,x2, . . . ,xn) =

n

Y

i=1

p(xi|xπi) Cette simplification correspond bien `a l’´equation 5.1.

Derri`ere tout r´eseau Bay´esien se cache donc une hypoth`ese essentielle : chaque variable est ind´ependante de ses non descendants ´etant donn´es ses parents dans le graphe. Les propri´et´es de d´ependance et d’ind´ependance conditionnelles d’un tel mod`ele sont visualisables dans son graphe. Afin d’observer graphiquement les notions de d´ependance conditionnelle, consid´erons le r´eseau Bay´esien repr´esent´e figure 5.1. Ce r´eseau mod´elise la probabilit´e (jointe) qu’une randonn´ee soit annul´ee et que les fleurs poussent, suite `a une cause possible : la pluie. Cet exemple mod´elise donc les relations qui relient les variables«pluie»,«randonn´ee»et«fleurs». La pluie provoque

l’annulation d’une randonn´ee et la pousse des fleurs,i. e. que le maintien de la randonn´ee et la pousse des fleurs d´ependent conditionnellement de la pluie.

Figure 5.1 – Exemple d’un r´eseau Bay´esien `a 3 variables

Les r´eseaux Bay´esiens peuvent traiter deux types de variables : discr`etes ou continues. Dans le cas de variables discr`etes, la somme des probabilit´esp(xv|xπv) vaut 1. Dans le cas de variables continues, c’est l’int´egrale qui vaut 1.

Chaque probabilit´e conditionnelleθi est consid´er´ee comme un param`etre du mod`ele. Il n’y a donc pas de distinction entre donn´ees et param`etres : les param`etres d’un mod`ele sont ses proba- bilit´es. Il est possible de repr´esenter les param`etres au niveau des nœuds du graphe repr´esentant le mod`ele. La repr´esentation de ces param`etres permettent d’enrichir la structure graphique du mod`ele en quantifiant les relations entre les variables.

La figure 5.2 donne un exemple de r´eseau Bay´esien o`u les param`etres sont repr´esent´es. Ce mod`ele, propos´e dans l’article [Blei 03], a d´ej`a ´et´e pr´esent´e dans le chapitre 4. Les lettres α, θ, z, v, r, w, σ, µ et β, associ´ees aux variables, sont les param`etres du mod`eles. Des boˆıtes englobantes peuvent aussi ˆetre utilis´ees pour repr´esenter des r´ep´etitions de sous-parties d’un mod`ele. Par exemple, sur la figure 5.2, il y a trois boˆıtes englobantes. La boˆıte o`u la lettre N figure en bas `a gauche de la boˆıte signifie que les variables englob´ees (de param`etresz etr) sont r´ep´et´eesN fois. Il est de mˆeme pour les lettreM etD qui caract´erisent le nombre de r´ep´etitions des variables que leurs boˆıtes englobent.

r z

θ N

α σ

w v

M

µ

β D

Figure 5.2 – Mod`ele GM-LDA

Finalement, les graphes fournissent une repr´esentation visuelle compacte et attractive d’une distribution de probabilit´e, mais ils apportent beaucoup plus :

– d’abord, quelle que soit la forme des probabilit´es conditionnelles p(xv|xπv), la probabilit´e jointe de l’´equation 5.1 implique un ensemble d’hypoth`eses d’ind´ependance conditionnelle entre les variables Xv : chaque variable est ind´ependante de ses non descendants ´etant

donn´es ses parents. L’ensemble de ces hypoth`eses d’ind´ependance conditionnelle peut ˆetre obtenu automatiquement, en parcourant le graphe et en utilisant un crit`ere appel´e la

«d-s´eparation»[Pearl 88].

– De plus, comme on va le voir dans la section 5.5, la structure graphique peut ˆetre exploit´ee par des algorithmes pour l’inf´erence probabiliste.