• Nenhum resultado encontrado

Chapitre 6 Un modèle hiérarchique des parties pour la catégorisation d’objets

6.2 Structure du modèle

Notre modèle (voir Figure 6.1) est une hiérarchie de parties et de sous-parties avec l’objet au plus haut niveau et les classes d’apparences-position au plus bas niveau. A chaque niveau de la hiérarchie, les parties sont affectées de manière probabiliste aux parents du niveau supérieur. Ces affectations « floues » sont utilisées principalement pour permettre à la structure du modèle de s’adapter à la classe de l’objet durant l’apprentissage : une fois que les modèles sont appris, la plupart des parties ont une affectation pratiquement déterministe, c’est-à-dire qu’une forte probabilité est donnée à un seul parent. La Table 6.1 définit les paramètres et les variables utilisés.

6.2. Structure du modèle

paramètres

µ()pp position moyenne de la partieppar rapport à la partiepau niveau+ 1de la hiérarchie τpp() probabilité pour la partiep-ième d’être affec-

tée à la partiep

πc probabilité d’observer la c-ième primitive graphique

Σ()p variance des parties au niveau

αc apparence moyenne de la primitive graphique c

Σαc variance de l’apparence

Variables aléatoires dépendant de l’imagei

¯

x()ip position/échelle de la partiepau niveau

¯

aic apparence de la primitive graphique

ηic index de la détection qui correspond à la pri- mitive graphiquec

Bip() index de la partie associée à la partiepau ni- veau supérieur dans la hiérarchie.

Oic valeur binaire indiquant si la primitivec est observée

TAB. 6.1 – Résumé des paramètres et variables du modèle.

¯

x(1) ¯a

α

B(1) O

τ(1)

¯ x(3)

µ(2) x¯(2)

µ(1) partp

x a

η

imagei feature classc

detectionj

FIG. 6.2 – Modèle graphique du modèle à trois niveaux. Au niveau ,µ() = (µ(),Σ()) est le vecteur des paramètres codant pour la géométrie,x¯() = (¯x(), s())est la position/échelle de l’objet dans l’image,α = (α,Σα)est le vecteur de paramètres pour l’apparence (moyenne et variance). .

Structure spatiale

Un objet est constitué de plusieurs parties à différents niveaux de la hiérarchie= 1,· · ·, L. Chaque partie et son sous-arbre sont attachés à leur parents par une transformation spatiale non déterministe. Dans les expériences présentées plus loin, seuls les translations et les changements d’échelle entre les parties et leur parent ont été considérés26. Nous supposons que la transformation réelleTpp entre les deux parties suit une loi normale sumr l’espace des paramètres de transformation et une loi log-normale sur l’espace des échelles. La variance de cette distribution peut être considérée comme une matrice3×3en utilisant la paramétrisation(u, v,logs). Celle-ci est supposée diagonale dans la suite. Nous écrivons la structure de manière récursive : au niveaude la hiérarchie, les positions des partiesx¯()ip sachant les positions au niveau supérieurx¯()ip,p = 1,· · ·, P()suivent des mélanges de Gaussiennes dont les proportions sontτpp() :

(

x¯()ip logs()ip

)

P p=1

τpp(+1) N

¯

x(+1)ip +s(+1)i µ()pp,(s(+1)ip )2Σ()p

× N

logs(+1)ip , ς()

, (6.1)

Ainsi, la structure complète du modèle (dépendence des parties relativement aux niveaux supérieurs vient du choix des proportions du mélangeτcp(). Si l’affectation des sous-parties aux parties est déterministe, les matricesτ() ne contiennent que des zéros et des uns, et les mélanges de distributions définis en ( 6.1) deviennent de simples gaussiennes.

Le dernier niveau de la hiérarchie ne contient qu’une seule partie (P(L)= 1). Cette partie est contrainte à être au centre de gravité de l’objet¯x(L)i1 = ¯x¯iet donne l’échelle de référence :s(L)1 = 1.

Le fait d’utiliser des affectations probabilistes pose un problème d’identifiabilité qui est résolu en contraignant les transformations entre une partie et ses parents à ne correspondre qu’à une seule et même transformation.

Sans imposer cela, le modèle comporterait un grand nombre de paramètres inutiles pour la modélisation que l’on souhaite : la transformation entre une sous-partie et une partie ayant une faible proportion dans le mélange ( 6.1) ne serait presque jamais observée, et l’estimation de ses paramètres serait très instable. En ne considérant qu’une seule transformation possible, les parties sont affectées (de manière probabiliste) à des parents dont la position explique au mieux celle de la partie (les positions sont très corrélées sur l’ensemble d’apprentissage). Ainsi, à chaque partie pau niveaune correspond qu’un seul vecteur de paramètres de transformation ¯x(+1)ip −x¯()ip représentant la

26Cela correspond aux transformations de la formeTpp =

s0 u 0s v 0 0 1

en coordonnées homogènes oùsest l’échelle relative et(u, v)est la translation relative de la partie.

6.2. Structure du modèle position moyenne relative dans le repère de la partiep. Cela revient à imposer aux paramètresµ()p la contrainte µ()p =

pτpp()µ(+1)pp etµ(L)1 = 0. De cette manière, les positions des parties ont le même centre de gravité à tous les niveaux :

µ()c =

p

τcp()

p

τpp(+1) µ(+2)pp =· · ·=µ(L)1 = 0. (6.2)

D’un point de vue pratique, cette contrainte permet de travailler avec les variables de décalagex¯(+1)ip −x¯(L)i1 relativement au centre de gravité de l’objet.

Correspondance entre l’image et le modèle

Le premier niveau de la hiérarchie est composé de parties élémentaires contenant aussi une représentation de leur apparence sur l’image. Celle-ci est codée par des descripteurs locaux invariants par échelle, similaires à ceux utilisés dans les modèles de constellation ou de type « bag of features » [ 162, 45, 44, 38, 110, 118, 32]. Lorsque le modèle est appliqué sur une image, ces parties élémentaires se comportent comme des « points d’attraction » pour les primitives graphiques les plus proches et d’apparence similaire. En résumé, les parties terminales de la pyramide des parties sont caractérisées par leur localisation dans l’image (position et échelle) et leur vecteur d’ap- parenceα. Dans les expériences qui suivent, le descripteur SIFT a été utilisé après détection des points d’intérêt invariants par échelle par une méthode de type Harris-Laplace [ 110, 118], mais la méthode resterait la même pour d’autres combinaisons détecteur27/descripteur de points d’intérêt28. Nous définissons l’ensemble desNi paires apparence/localisation détectées sur l’imagei parSi = {aij, xij}j=1,···,Ni. Pour chaque partie élémentaire p, l’apparence est modélisée par une distribution gaussienne de moyenneαpet de varianceVar(αp). Ainsi, l’appa- rence et la localisation sont des instanciations de lois gaussiennes dont les paramètres dépendent de la position des parents et de l’index de la partie.

Le modèle peut accepter un grand nombre de parties élémentaires, bien qu’en pratique elles ne soient jamais toutes observées simultanément sur une image. Il est donc important de permettre à certaines parties d’être inob- servées dans le modèle. En pratique, les parties sont toujours affectées à un point de l’image, même si l’affectation est peu probable. La distribution sur l’espace apparence/localisation devient donc un mélange entre :

– la distribution gaussienne définie précédemment modélisant une partie observée et

27Un descripteur local est une méthode qui génère les primitives graphiques locales de l’image.

28Le descripteur du point d’intérêt est un vecteur contenant des informations sur la forme locale de l’image autour d’un point d’intérêt

– une distribution uniforme modélisant une partie inobservée :

πpx(1)c |¯x(2))p(ac) + (1−π)UcappUsub (6.3) oùpx(1)ic |x¯(2)i )est un mélange comportantP(2) composants déjà défini par l’équation (6.1) etp(ac)est la dis- tribution de l’apparence de la partie élémentairec. Seules les positions xic et les apparences aic desC parties élémentaires sont observées. La position, l’échelle des parties et celle du centre de gravité sont considérés comme des variables cachées et sont estimées pour chaque image.

Le modèle suppose que les sous-parties sont affectées à un seul parent, ce parent pouvant différer d’une image à l’autre. Considérer que les parties sont toujours associées au même parent correspondrait plus à la philosophie générale du modèle, mais les expériences réalisées montrent des difficultés d’estimation : le modèle n’est pas clairement divisé en parties, et la correspondance de parties élémentaires aux primitives graphiques est moins efficace.

Lors de la phase de test, les correspondances multiples entre parties élémentaires et primitives graphiques sont permises, pour des raisons de rapidité de calcul et parce que les résultats finaux sont visuellement équivalents. En revanche, durant la phase d’apprentissage, nous avons contraint les affectations à être uniques pour éviter que les parties proches en localisation et en apparence ne se confondent et correspondent de cette manière à une seule et même partie.