3.3 Recherche de motifs structuraux
3.3.4 Tests d’efficacit´e
motif doivent contribuer `a la clique. Dans l’exemple de la figure 3.13, le nœud 0 deP est impliqu´e dans les nœuds a et b du GC. Si aucun de ces deux nœuds n’est impliqu´e dans la clique alors la recherche d’une clique de taille 5 peut s’arrˆeter. En effet, si ni le nœud ani le b du GC n’est impliqu´e dans la clique, il est impossible de trouver une clique de taille 5 dans ce GC, c’est-`a-dire une occurrence compl`ete deP dansG. Enfin, unek-clique contenant le nœud de degr´e maximal du motifP est recherch´ee dans le GC afin de d´etecter rapidement une non-occurrence du motif.
Initialement, la proc´edure est lanc´ee avec la liste solution vide et la liste compatible contenant tous les nœuds du GC.
3.3. Recherche de motifs structuraux
0 1 2 3
X
*Orn Ser *Orn
P4
4 3
2 1
0
D−Tyr X D−Tyr Thr Ile
P1
0 1 2
Gly/Ile Thr X X 3
0
1 2
4 3 X
X
X
X X
P2 P3
C4:0 Thr
0 1 2
3 4
6 5 Ile
D−Tyr
D−Tyr
D−Phe Arg
G1
4 3
2 1
0 G2
C4:0 D−OH−Asp
Ser
Fo−OH−Orn OH−Orn
Fig. 3.15 – Quelques exemples de motifs structuraux et de graphes mod´elisant des peptides Dans le but de tester l’efficacit´e de notre m´ethode, nous avons dans un premier temps, compar´e le nombre de nœuds et d’arˆetes dans des GC construits avec la m´ethode classique et la nouvelle m´ethode, lors de recherche de motifs entiers au sein des diff´erents peptides de la figure 3.15.
motif peptide nombre de nœuds nombre d’arˆetes
P1 G1 13 / 12 22 / 19
P2 G1 16 / 16 43 / 29
P3 G1 35 / 30 210 / 100
P3 G2 25 / 15 100 / 0
P4 G2 10 /8 14 /9
Ala-1(a) Ala(b) 73 / 73 1918 / 286 (X)19(c) Ala(b) 380 / 346 53010 /3948
Tab.3.1 – Nombre de nœuds et d’arˆetes au sein des GC construits avec la m´ethode classique et la nouvelle. Le premier nombre correspond `a la m´ethode classique et le second, en gras, correspond
`
a la nouvelle m´ethode.
(a) motif correspondant `a l’alamethicine moins le dernier monom`ere
(b) motif correspondant `a l’alamethicine contenant les 20 monom`eres
(c) motif lin´eaire compos´e de 19«X»
Les r´esultats de la table 3.1 montrent que le nombre de nœuds et d’arˆetes de la nouvelle m´ethode est toujours inf´erieur ou ´egal `a ceux de la m´ethode classique. Dans le cas de la recherche du motifP3 dans le grapheG2, il n’y a pas d’arˆete dans le GC construit avec la nouvelle m´ethode car la liste des CE de P3 n’est pas incluse dans celle des CE de G. En effet, P3 est cyclique et chaque paire de nœuds est connect´ee par deux CE alors que G2 est lin´eaire, il n’existe donc qu’un seul CE entre chaque paire de nœuds. Dans ce cas, notre m´ethode trouve directement le r´esultat, sans rechercher dek-clique. Lorsque le motif compos´e de 19«X»est recherch´e dans le graphe correspondant `a l’alamethicine, le nombre de nœuds est de 380 avec la m´ethode classique et de 346 avec la nouvelle m´ethode. Cette diminution du nombre de nœuds est due `a l’ajout de la condition sur le degr´e des nœuds. De plus, dans cet exemple, le nombre d’arˆetes passe de 53 010 `a 3 948 avec la nouvelle m´ethode ce qui repr´esente plus de 13 fois moins d’arˆetes qu’avec la m´ethode classique.
Ces exemples montrent que la nouvelle m´ethode mise en place r´eduit le nombre de nœuds et d’arˆetes au sein des GC, offrant ainsi une recherche efficace d’unek-clique dans ce GC compact.
Dans le but de v´erifier la diminution du temps d’ex´ecution de recherche d’un motif au sein d’un ensemble de graphes, nous avons mesur´e le temps de recherche de diff´erents motifs entiers au sein des 711 peptides NOR00001 `a NOR00711 de Norine.
La table 3.2 montre les r´esultats obtenus avec la m´ethode classique compar´es `a ceux obtenus avec la nouvelle m´ethode. La premi`ere constatation est que le nombre de r´esultats obtenus, c’est-
`
a-dire le nombre de peptides contenant le motif recherch´e, est souvent plus ´elev´e avec la nouvelle m´ethode. Les peptides trouv´es en plus contiennent soit un cycle qui n’est pas pr´esent dans le motif, soit une double liaison entre deux monom`eres. Dans l’exemple 6, un motif compos´e de deux monom`eres quelconques est recherch´e. Les 711 graphes test´es contiennent tous au mini- mum deux monom`eres et par cons´equent les deux m´ethodes devraient retourner les 711 graphes.
Cependant seuls 698 graphes sont retourn´es par la m´ethode classique `a cause de la pr´esence de 13 dipeptides cycliques. En effet, certains peptides peuvent contenir un h´et´erocycle form´e entre deux monom`eres adjacents, ce qui se traduit par deux nœuds reli´es par deux arˆetes. La m´ethode classique ne trouve pas ces cas particuliers.
Ensuite, nous pouvons constater que la nouvelle m´ethode est beaucoup plus rapide que la
3.3. Recherche de motifs structuraux
motif nombre de r´esultats temps
1 P1 0 /1 152 ms / 147 ms
2 P2 10 / 11 2,3 s / 186 ms
3 P3 105 / 105 7,7 s / 309 ms
4 P4 4 /6 271 ms / 219 ms
5 Gln/Glu X D-Leu 12 / 12 178 ms / 175 ms
X Asp D-Leu X
6 X X 698 / 711 180 ms / 179 ms
7 X X5 X 332 / 511 3,1 s / 383 ms
8 X X9 X 113 / 175 7,1 min /387 ms
9 X X12 X 33 / 48 7 h /267 ms
10 X X16 X ND / 24 ND /265 ms
11 X X18 X ND / 15 ND /377 ms
12 X X47 X 1 /1 4,7 min /598 ms
13 X X14 X X ND /7 ND /394 ms
| X
14 X X14 X X ND /0 ND / 280 ms
|/ X
Tab. 3.2 – Temps de recherche de diff´erents motifs complets au sein d’un ensemble de 711 graphes. Le premier nombre est celui concernant la m´ethode classique et le second, en gras, est celui de la nouvelle m´ethode. ND signifie que le temps est sup´erieur `a 8 heures.
m´ethode classique. Dans l’exemple 13, la m´ethode classique ne produit pas de r´esultat apr`es 8 heures de calculs alors que seulement 394 ms sont n´ecessaires `a la nouvelle m´ethode pour retourner la liste des graphes contenant le motif recherch´e. Pour le motif lin´eaire compos´e de 7
«X» (exemple 7), pr´esent dans plus de 70% des 711 peptides, le temps de recherche est 8 fois plus long lorsque la m´ethode classique est utilis´ee. L’exemple 14 repr´esente un test n´egatif car il n’est pas pr´esent dans les 711 peptides. Une fois encore la m´ethode classique ne produit pas de r´esultat apr`es 8 heures de calculs alors que la nouvelle m´ethode ne prend que 280 ms.
Cette exp´erience, ainsi que les pr´ec´edentes prouvent que la nouvelle m´ethode est partic- uli`erement efficace et adapt´ee `a notre probl`eme. En effet, la m´ethode d´evelopp´ee recherche une sous-structure commune de taillekentre un motifP et un grapheG. Il faut moins d’une seconde pour rechercher un motif dans un ensemble de 711 graphes. Cette m´ethode peut ensuite ˆetre facilement modifi´ee pour comparer strictement deux peptides de fa¸con efficace.