• Nenhum resultado encontrado

Partie II Contributions en reconnaissance de formes 75

Chapitre 6 Reconnaissance de symboles 95

6.7 Evaluation et r´esultats ´

6.7.3 R´esultats

Tout d’abord, on peut remarquer que la r´eduction de dimension des vecteurs caract´eristiques am´eliore le taux de reconnaissance pour tous les classificateurs. De plus, la s´election de variables avec le LASSO nous a permis de diminuer significativement le nombre de variables. Le tableau 6.1 montre le nombre de variables moyen s´electionn´ees pour chaque descripteur avec la m´ethode du LASSO, compar´e `a la m´ethode Sequential Forward Selection (SFS method) [Pudil 94] (cf.

section 6.5.2). On peut voir que le LASSO nous a permis de s´electionner moins de variables que la m´ethodeSFS (voir tableau 6.1).

Le tableau 6.2 montre le taux de reconnaissance en fonction des diff´erentes m´ethodes de s´election de variables, en combinant 3 descripteurs avec notre mod`ele de m´elange de lois de Bernoulli et de m´elanges de Gaussiennes (GM-B) et deux classificateurs de l’´etat de l’art : un classificateur SVM classique [Chang 01], et lek plus proches voisins«flou»(FKNN) [Keller 85].

Les taux de reconnaissance pour ces trois classificateurs sans s´election de variable et apr`es s´election d’un sous-ensemble de variables avec les m´ethodesSFSou LASSO ou avec des s´elections al´eatoires du mˆeme nombre de variables que celui obtenu avec le LASSO, sont compar´es. Le FKNN a ´et´e calcul´e avec k = 1 et k =m o`u m est le nombre moyen d’images par classe dans l’´echantillon d’apprentissage.

Les r´esultats du tableau 6.2 montrent que la s´election de variables avec le LASSO am´eliore le taux de reconnaissance de 8.7% en moyenne compar´ee `a la classification sans s´election de variables, de 5.3% en moyenne compar´ee `a la s´election al´eatoire et de 1.8% en moyenne compar´ee

`

a la s´election avec SFS. Ainsi, la LASSO s’est montr´e plus robuste sur cette base et d’un point de vue exp´erimental, que la m´ethode SFS. En effet, les m´ethodes de r´etr´ecissement comme la LASSO sont r´eput´ees pour ˆetre plus stables que les m´ethodes it´eratives comme SFS, pour s´electionner des variables dans un large ensemble de variables et avec peu d’exemples. Ainsi, dans la suite de cette section, les variables seront s´electionn´ees, avec la m´ethode du LASSO, avant d’op´erer la classification.

Nombre de variables de GFD Zernike R-signature 1D

sans s´election 225 34 180

SFS 141 34 48

LASSO 13 15 13

Table 6.1 – Nombre moyen de variables en fonction de la m´ethode de s´election de variables

M´ethode de s´election de variables SVM FKNNk = 1 FKNN k =m GM-B

Sans s´election 87.6 89.9 88.6 89.8

S´election al´eatoire 90.8 93.7 91.5 93.3

SFS 94.1 97.2 95.3 96.7

LASSO 95.7 98.8 96.2 100

Table 6.2 – Taux de reconnaissance moyens (en %) pour les classificateurs SVM, FKNN et GM-B en fonction de la m´ethode de s´election de variables

Consid´erons maintenant le tableau 6.3. La notation G (respectivement Z et R) signifie que

le descripteur GFD (respectivement les descripteurs Zernike et laR-signature 1D) a ´et´e utilis´e.

L’op´erateur«+»indique que les descripteurs repr´esent´es par les op´erandes sont combin´es.

Les taux de reconnaissance confirment que la combinaison de 2 ou 3 descripteurs implique une meilleure classification qu’avec un seul de ces descripteurs. En effet, on observe que la combinaison de 2 descripteurs augmente le taux de reconnaissance de 18% en moyenne compar´e `a l’utilisation d’un seul descripteur. De plus, on peut noter que la combinaison de 3 descripteurs est meilleure, de 18.3% en moyenne, `a l’utilisation d’un seul d’entre eux. D’autre part, mˆeme si l’on obtient un taux de reconnaissance ´elev´e avec le descripteur de Zernike, le taux de reconnaissance ne diminue pas si on combine ce descripteur avec un ou deux autres descripteurs, quels que soient ces descripteurs, et mˆeme s’ils ont un faible taux de reconnaissance (c’est le cas de laR-signature 1D), i. e. que le mauvais comportement d’un descripteur ne p´enalise pas le comportement des autres descripteurs auxquels on le combine.

G Z R G+Z G+R Z+R G+Z+R

99 100 46.1 100 99.3 100 100

Table 6.3 – Taux de reconnaissance moyens (en %) du GM-B apr`es s´election de variables avec le LASSO

Enfin, la derni`ere ligne du tableau 6.2 montre l’efficacit´e de notre approche compar´ee aux classificateurs SVM et FKNN. Les r´esultats ont ´et´e obtenus en combinant les trois descripteurs et apr`es s´election de variables avec le LASSO. Il apparait que les r´esultats du mod`ele propos´e GM-B sont toujours meilleurs que ceux du SVM et du FKNN.

Base de 5400 images

Sur cette base, le LASSO nous a permis de s´electionner environ le mˆeme nombre de variables que sur la base intiale : 12 variables en moyenne `a partir des caract´eristiques de GFD, 13 `a partir des caract´eristiques de Zernike et 13 `a partir des caract´eristiques de laR-signature 1D. Enfin, 83 variables ont ´et´e s´electionn´ees `a partir des caract´eristiques du descripteurHRT calcul´e sur cette nouvelle base. Consid´erons maintenant le tableau 6.4. Les notations utilis´ees sont les mˆemes que celles utilis´ees dans le tableau 6.3. De plus, la notation MF signifie que les trois mesures de forme ont ´et´e utilis´ees. Les taux de reconnaissance montrent l’int´erˆet de la combinaison de descripteurs. En effet, mˆeme si la classification est moins efficace que sur la premi`ere base (car la base de 5400 images est plus complexe que la premi`ere, du fait des «occlusions»sur certaines images), les r´esultats montrent que la combinaison des descripteurs continus am´eliore le taux de reconnaissance. De plus, l’ajout des 3 mesures de formes (caract´eristiques discr`etes) am´eliore encore ces r´esultats. En effet, l’int´egration de caract´eristiques discr`etes am´eliore le taux de reconnaissance de 3.8% en moyenne compar´e au taux de reconnaissance obtenu en combinant les 3 descripteurs continusGFD,Zernike etR-signature 1D.

De plus, le tableau 6.4 montre que l’utilisation du descripteur HRT `a la place de la R- signature 1D permet d’am´eliorer encore le taux de reconnaissance de 0.4% en moyenne.

Enfin, le tableau 6.5 montre que le classificateur propos´e GM-B offre de meilleures perfor- mances que les classificateurs SVM et FKNN.

De mˆeme, le mod`ele propos´e GM-B montre de meilleurs taux de reconnaissance que les classificateurs Bay´esiens usuels (Na¨ıve Bayes (BN), Na¨ıve Bayes augment´e (TAN) et Multinets) pr´esent´es section 5.6. On remarque que le Na¨ıve Bayes et le TAN ont des performances similaires.

Ceci est du au fait que lors de l’apprentissage de structure du TAN, peu d’arcs ont ´et´e cr´e´es entre

les variables caract´eristiques. Aussi la structure du r´eseau est quasi identique `a celle du na¨ıve Bayes. On remarque que le Na¨ıve Bayes ont un comportement similaire au FKNN. De mˆeme, les performances du Na¨ıve Bayes et du TAN sont proches de celles du SVM. Cependant, le SVM pr´esente des taux de reconnaissance l´eg`erement sup´erieurs lorsque 25% et 50% de la base sont utilis´es pour l’apprentissage, alors que les mod`eles graphiques probabilistes sont plus performants lorsque la taille de la base d’apprentissage passe `a 75% de la base totale. Ceci confirme le fait que les SVM sont moins efficaces en pr´esence de beaucoup de donn´ees d’apprentissage, `a la diff´erences des mod`eles graphiques probabilistes. Enfin, le Multinets se montre plus performant que le Na¨ıve Bayes et le TAN.

apprentissage G Z R G+Z G+R Z+R G+Z+R G+Z+R+MF G+Z+HRT+MF

25% 70,4 79 39,3 85,5 75,5 82,2 93,3 96,8 97,5

50% 71 80,7 40,2 87,6 76,3 83,4 93,7 98,6 98,8

75% 75,7 85,1 41,2 89,4 79,1 87,6 96,2 99,2 99,5

Table6.4 – Taux de reconnaissance moyens (en %) du mod`ele GM-B apr`es s´election de variables avec le LASSO - base de 5400 images

apprentissage SVM FKNN k = 1 FKNNk =m BN TAN Multinets GM-B

25% 89,2 91,9 91,7 88,8 89,1 95,3 96,8

50% 91 95,2 93 90,1 90,7 97,2 98,6

75% 92,5 97,1 94,7 93,6 94,6 98,6 99,2

Table6.5 – Taux de reconnaissance moyens (en %), en combinant les caract´eristiques continues et discr`etes (G+Z+R+MF), avec le SVM, le FKNN, le Na¨ıve Bayes, le Na¨ıve Bayes augment´e (TAN), le Multinets et le mod`ele GM-B apr`es s´election de variables avec le LASSO - base de 5400 images

Le tableau 6.6 montre les valeurs maximales et minimales, ainsi que la moyenne et l’´ecart- type des taux de reconnaissances obtenus par les 3 classificateurs compar´es, durant les 10 tests et pour un apprentissage sur 50% de la base. L’´ecart-type est faible, quel que soit le classificateur utilis´e, et montre une faible variabilit´e du taux de reconnaissance en fonction des diff´erents

´echantillons d’apprentissage et de test.

Mesure SVM FKNNk = 1 FKNN k =m GM-B

Min 90.4 94.8 92.9 98.5

Max 91.7 95.4 93.03 98.65

Moyenne 91 95.2 93 98.6

Ecart-type 0.4 0.17 0.04 0.07

Table6.6 – Mesures statistiques (en %) sur les taux de reconnaissance des classificateurs SVM, FKNN et GM-B, apr`es s´election de variables avec le LASSO, en combinant des caract´eristiques continues et discr`etes (G+Z+R+MF) - base de 5400 images (´echantillon d’apprentissage = 50%

de la base)

Enfin, Le tableau 6.7 montre les temps CPU du SVM, du FKNN et du mod`ele propos´e, pour

les phases d’apprentissage et de test, dans les mˆeme conditions exp´erimentales que celles du tableau 6.5. Toutes les exp´erimentations ont ´et´e men´ees avec un processeur Intel Core 2 Duo 2,40 GHz 2,40 Ghz, 2 Go RAM, Windows. Les trois classificateurs ont ´et´e ex´ecut´es avec Matlab c. Si on consid`ere uniquement les phases de test (l’apprentissage ´etant fait hors-ligne pour le SVM et le GM-B), le SVM est plus rapide que les deux autres. Le temps CPU est plus ´elev´e pour le mod`ele GM-B car il d´epend du nombre de Gaussiennes, et de la pr´ecision pr´ed´efinie dans l’algorithme EM. Ici, nous avons utilis´e deux Gaussiennes. Ce nombre a ´et´e d´etermin´e exp´erimentalement, de fa¸con `a r´ealiser le meilleur compromis entre temps de calcul et taux de reconnaissance. Comme nous pouvons le voir dans la figure 6.10, le m´elange `a 2 Gaussiennes a offert le meilleur taux de reconnaissance. Les tests de comparaison ont ´et´e effectu´es en utilisant 50% de la base pour l’apprentissage et de 1 `a 10 Gaussiennes. Les taux pr´esent´es sont les moyennes obtenues apr`es validation crois´ee.

2 3 4 5 6 7 8 9 10

94 94.5 95 95.5 96 96.5 97 97.5 98 98.5 99

nombre de Gaussiennes

taux de reconnaissance moyen

Figure 6.10 – Taux de reconnaissance moyen en fonction du nombre de Gaussiennes

On remarquera, que, malgr´e un temps CPU sup´erieur pour le mod`ele GM-B, ce temps reste inf´erieur `a 0,03 s par image.

Finalement, comme nous l’avons ´evoqu´e dans la section 6.5.2.1, on peut remarquer que la s´election de variables permet de diminuer consid´erablement les temps de calcul du classificateur GM-B.

Apprentissage SVM

FKNNk = 1 FKNN k =m GM-B avec LASSO GM-B sans s´election

app test app test app test

25% 4 5 40 41 58 78 2726 25608

50% 10 6 56 58 117 52 5696 17291

75% 19 4 42 45 168 24 8110 8453

Table6.7 – Temps CPU (en secondes), du SVM, du FKNN et du GM-B. Les temps sont donn´es pour la classification de toutes les images test