• Nenhum resultado encontrado

Partie I Etat de l’art ´ 7

4.3 Annotation automatique

4.3.3 M´ethodes probabilistes

Les m´ethodes probabilistes d’annotation consistent `a apprendre des mod`eles probabilistes d’association entre des images et des mots-cl´es.

Le premier travail remarquable de ce type, propos´e par Mori et al. [Mori 99] en 1999, est un mod`ele de co-occurrence. Ce mod`ele consiste `a compter les co-occurrences de mots-cl´es et de caract´eristiques graphiques `a partir des images d’un ´echantillon d’apprentissage, et `a les utiliser pour pr´edire les mots-cl´es annotant d’autres images. Ce mod`ele pr´esente l’inconv´enient de n´eces- siter des vecteurs de caract´eristiques discr`etes, ou une discr´etisation pr´ealable de ces vecteurs.

Ce mod`ele a alors ´et´e am´elior´e, en 2002, par Duygulu et al. [Duygulu 02] par l’introduction d’un mod`ele de traduction statistique. Dans cette approche, les images sont d’abord segment´ees en r´egions. Ces r´egions sont ensuite classifi´ees en fonction de leurs caract´eristiques graphiques. Une

relation entre les classes de r´egions et les mots-cl´es est alors apprise, en utilisant une m´ethode ba- s´ee sur l’algorithme EM. Ce processus est analogue `a l’apprentissage d’un lexique `a partir d’un corpus bilingue align´e (deux textes qui sont les traductions l’un de l’autres). Cette m´ethode supporte des vecteurs de caract´eristiques continues mais n´ecessite une annotation manuelle des r´egions d’un sous-ensemble d’images.

D’autres travaux cherchent `a calculer, pour les images non ou partiellement annot´ees, la distribution des mots-cl´es conditionnellement aux caract´eristiques visuelles. En effet cette dis- tribution repr´esente une pr´ediction des mots-cl´es manquants pour ces images. Il existe plusieurs travaux dans ce sens. Par exemple, Blei et al. [Blei 03] ont propos´e trois mod`eles probabilistes hi´erarchiques pour repr´esenter et classifier des donn´ees annot´ees : un mod`ele de m´elange de dis- tributions Gaussiennes et multinomiales (mod`ele GM-Mixture), le mod`ele Gaussian-Multinomial LDA (GM-LDA) , et, le plus efficace appel´e correspondence LDA (CORR-LDA). Ces mod`eles introduisent une variable al´eatoire latente (cach´ee) pour faire le lien entre les caract´eristiques graphiques et les mots-cl´es. Par exemple, le mod`ele GM-Mixture (voir figure 4.8) suppose que les caract´eristiques visuelles et les mots-cl´es d’une image ont ´et´e g´en´er´es conditionnellement au mˆeme facteur cach´e (variable latente z), qui repr´esente la classe cach´ee de chaque image. Un vecteur de caract´eristiques visuelles est calcul´e sur les N r´egions de l’image. Ces vecteurs ca- ract´eristiques sont suppos´es avoir une distribution Gaussienne de param`etres (µ, σ). En plus de ces caract´eristiques visuelles, chaque image est annot´ee parM mots-cl´es, chacun ´etant suppos´e suivre une distribution multinomiale. Comme on peut le voir dans la figure 4.8, une image et sa l´egende sont suppos´ees avoir ´et´e g´en´er´ees en choisissant d’abord la valeur dez puis en r´ep´etant l’´echantillonnage des caract´eristiquesrn desN r´egions et desM mots-cl´eswm conditionnellement

`

a la valeur dez. La distribution de probabilit´e jointe P(z,r,w) est donn´ees par :

p(z,r,w) =p(z|λ)

N

Y

n=1

p(rn|z, µ, σ)

M

Y

m=1

p(wm|z, β)

Une boˆıte englobante autour d’une variable al´eatoire repr´esente une r´ep´etition. Par exemple, la boˆıte autour de a variable r repr´esente n r´ep´etitions de r, ce qui donne le premier produit dans l’´equation ci-dessus.

Ce mod`ele pr´esente l’inconv´enient de n´ecessiter une segmentation pr´ealable des images, sans pour autant annoter textuellement les r´egions d’images. En effet, les mots-cl´es sont associ´es `a l’image enti`ere. Avec ce mod`ele, on a finalement les inconv´enients du d´ecoupage en r´egions des images (i. e. le coˆut de la segmentation pr´ealable), sans les avantages (l’annotation n’est pas plus pr´ecise car chaque mot-cl´e reste associ´e `a une image enti`ere).

r z N

λ σ

w M

µ

β D

Figure4.8 – Mod`ele GM-Mixture

Afin de r´esoudre ce probl`eme, le mod`ele GM-LDA (pr´esent´e figure 4.9), suppose que les ca- ract´eristiques visuelles et les mots-cl´es peuvent provenir de diff´erents facteurs cach´es. La variable latentez repr´esente donc le facteur cach´e de g´en´eration des caract´eristiques visuelles. De mˆeme, la variable latentev repr´esente le facteur cach´e de g´en´eration des mots-cl´es. Enfin, la variable la- tenteθrepr´esente finalement une classe cach´ee de chaque image associ´ee `a des mots-cl´es. Comme dans le mod`ele GM-Mixture, un vecteur caract´eristique est calcul´e sur les N r´egions de l’image.

Ces vecteurs caract´eristiques sont suppos´es avoir une distribution Gaussienne de param`etres (µ, σ). En plus de ces caract´eristiques visuelles, chaque image est associ´ee `aM mots-cl´es, chacun

´etant suppos´e suivre une distribution multinomiale. La distribution de probabilit´e jointe de ce mod`ele est donn´ee par :

p(r,w, θ,z,v) =p(θ|α)(

N

Y

n=1

p(zn|θ)p(rn|zn, µ, σ))(

M

Y

m=1

p(vm|θ)p(wm|vm, β))

L’utilisation de deux facteurs cach´es, un pour les caract´eristiques visuelles et un autre pour les mots-cl´es, permet d’´etablir une correspondance entre une r´egion sp´ecifique de l’image et un mot-cl´e pr´ecis. De ce fait, avec ces mod`eles, on a l’inconv´enient du coˆut li´e au d´ecoupage pr´ealable des images, par contre on a l’avantage d’une annotation plus fine.

r z

θ N

α σ

w v

M

µ

β D

Figure4.9 – Mod`ele GM-LDA

Enfin, le mod`ele correspondence-LDA (pr´esent´e figure 4.10) permet une repr´esentation d’une image et ses mots-cl´es encore plus efficace que les deux pr´ec´edents. En effet, les caract´eristiques visuelles sont d’abord g´en´er´ees, et les mots-cl´es ensuite. De ce fait, l’annotation consiste `a s´e- lectionner, pour chaque mot-cl´e d’une image, une r´egion. De cette fa¸con, le syst`eme permet une

annotation plus souple que les deux pr´ec´edents mod`eles : un mot-cl´e peut ˆetre associ´e plusieurs r´egions, et plusieurs mots-cl´es peuvent ˆetre associ´es `a une mˆeme r´egion.

La distribution de probabilit´e jointe de ce mod`ele est donn´ees par : p(r,w, θ,z,y) =p(θ|α)(

N

Y

n=1

p(zn|θ)p(rn|zn, µ, σ))(

M

Y

m=1

p(ym|N)p(wm|ym,z, β))

La fl`eche orient´ee deN vers y signifie que les caract´eristiques rn desN r´egions de l’images sont d’abord g´en´er´ees. Ensuite, pour chacun desM mots-cl´es, une des r´egions est s´electionn´ees dans l’image et un mot-cl´e correspondantwm est d´etermin´e, conditionnellement au facteur qui a g´en´er´e la r´egion s´electionn´ees.

r z

N α θ

σ

w y

M

µ

β D

Figure4.10 – Mod`ele Corr-LDA

Finalement, ces trois mod`eles poss`edent l’avantage de pouvoir effectuer, en plus de l’annota- tion automatique, les tˆaches de clustering et de recherche d’images bas´ee sur le texte, grˆace aux facteurs cach´es. Par contre, ces mod`eles pr´esentent l’inconv´enient de consid´erer que les mots- cl´es constituant l’annotation d’une image sont ind´ependants. De plus le nombre de mots-cl´es annotant une image est limit´e.

Jeon et al. [Jeon 03] ont introduit le mod`ele Cross-Media Relevance Model (CMRM) qui utilise les mots-cl´es communs `a des images similaires pour annoter de nouvelles images. En effet, comme dans l’approche de [Duygulu 02], les images sont suppos´ees ˆetre d´ecrites par un petit vocabulaire associ´e aux classes de r´egions de l’image. En utilisant un ´echantillon d’apprentissage contenant des images annot´ees, la distribution de probabilit´e jointe des classes de r´egions et des mots-cl´es est apprises. Cette m´ethode a ensuite ´et´e am´elior´ee par le mod`ele Continuous- space Relevance Model [Lavrenko 03] et le mod`eleMultiple Bernoulli Relevance Model (MBRM) [Feng 04]. L’approche [Lavrenko 03] suppose que chaque image est divis´ee en r´egions, chacune

´etant d´ecrite par un vecteur caract´eristique `a valeurs continues. ´Etant donn´e un ´echantillon d’apprentissage constitu´e d’images annot´ees, un mod`ele probabiliste des caract´eristiques et des mots-cl´es est appris, permettant de pr´edire la probabilit´e de g´en´erer un mot-cl´e ´etant donn´ees les caract´eristiques des r´egions d’images. De mˆeme, la m´ethode [Feng 04] suppose que l’on dispose d’un ´echantillon d’apprentissage constitu´e d’images, ou de vid´eos, annot´ees par des mots-cl´es issus d’un vocabulaire. Chaque image est alors partitionn´ee en un ensemble de r´egions rectan- gulaires et des vecteurs de caract´eristiques continues sont calcul´es sur ces r´egions. Le mod`ele propos´e est une distribution de probabilit´e jointe des annotations et des vecteurs caract´eristiques, calcul´ee `a partir de l’´echantillon d’apprentissage. Les probabilit´es des mots-cl´es sont estim´ees en utilisant un mod`ele de Bernoulli multiple et les probabilit´es des caract´eristiques en utilisant une estimation de densit´e non-param´etrique. Ce mod`ele pr´esente l’inconv´enient d’´emettre une hypoth`ese sur le type de distribution de probabilit´e des mots-cl´es.

Dans [Zhang 05], l’algorithme EM et la r`egle de Bayes sont utilis´es pour connecter chaque ca- ract´eristique `a des mot-cl´es. On obtient ainsi des concepts s´emantiques. Un concept s´emantique est un ensemble de mots-cl´es. Les caract´eristiques visuelles sont suppos´ees avoir ´et´e g´en´er´ees `a partir de plusieurs distributions Gaussiennes, chacune correspondant `a un concept s´emantique.

Les param`etres de ce m´elange de Gaussiennes sont estim´es grˆace `a l’algorithme EM. Une nouvelle image sera annot´ee par le mot cl´e du vocabulaire ayant la plus grande probabilit´e ´etant don- n´ees les caract´eristiques visuelles de l’image. Cette probabilit´e est obtenue `a l’aide des concepts obtenus et de la r`egle de Bayes. Cette approche a l’avantage de ne faire de supposition quant `a la distribution des mots-cl´es. Par contre le nombre de concepts est fix´e et la recherche d’images n´ecessite qu’elles soient toutes annot´ees.

Jin et al. [Jin 04] proposent, quant `a eux, un mod`ele de langage pour l’annotation d’images.

Le mod`ele propos´e a l’avantage de consid´erer les relations de d´ependances entre les mots-cl´es alors que la plupart des mod`eles consid`erent que les mots-cl´es sont ind´ependants. Pour introduire la corr´elation entre les mots-cl´es, la probabilit´e d’un ensemble de mots-cl´es ´etant donn´ee une image est calcul´ee. Cette m´ethode pose probl`eme par le nombre exorbitant d’ensembles de mots-cl´es distincts. Pour pallier ce probl`eme, les probabilit´es sont estim´ees grˆace `a un mod`ele de langage.

Un autre avantage de ce mod`ele est qu’il permet une longueur d’annotation variable. En effet certaines images plus complexes que d’autres n´ecessitent plus de mots-cl´es pour les d´ecrire.

Toutes les images ne sont donc pas annot´ees par le mˆeme nombre de mots-cl´es. Par contre cette approche limite l’annotation des images par 5 mots-cl´es maximum. Enfin, l’annotation des images est soumise `a un seuil, i. e. que les images ne sont annot´ees automatiquement par un mot-cl´e que si celui-ci a la plus grande probabilit´e et que cette probabilit´e est sup´erieure

`

a 0.5. Certaines images ne sont donc pas annot´ees automatiquement. Celles-ci sont propos´ees

`

a l’utilisateur pour qu’il les annote manuellement. Cette m´ethode d’annotation n’est donc pas enti`erement automatique.

Le papier [Yavlinsky 05] propose ´egalement une m´ethode probabiliste d’annotation automa- tique d’images. Celle-ci consiste `a calculer la probabilit´e de chaque mot du vocabulaire ´etant donn´ee une image. Chaque image est repr´esent´ee par un ensemble de caract´eristiques et une signature. Cette m´ethode est assez classique `a l’exception qu’elle utilise des tests non param´e- triques (m´ethode statistique) pour estimer les probabilit´es.

Enfin, derni`erement, l’approche propos´ee dans [Wang 09b] s’est distingu´ee car elle utilise `a la fois des caract´eristiques visuelles globales et locales des images.

4.3.3.1 Conclusion sur les m´ethodes probabilistes

Les approches probabilistes pr´esentent l’avantage de pouvoir ˆetre utilis´ees, en g´en´eral, pour les deux tˆaches de classification et d’annotation.

Par contre, elles n´ecessitent souvent de grands ´echantillons d’apprentissage. Enfin, l’incon- v´enient majeur de la plupart des m´ethodes probabilistes que nous venons de d´ecrire est que leur efficacit´e d´epend fortement des techniques de segmentation utilis´ees.