• Nenhum resultado encontrado

La comparaison inter-esp `eces de voies m ´etaboliques est une probl ´ematique impor- tante en biologie. Qualifier et quantifier les caract ´eristiques communes entre plusieurs esp `eces ainsi que celles qui les distinguent permet de mieux comprendre le m ´etabolisme de ces esp `eces. Cela permet ´egalement de d ´eterminer si ou dans quelle mesure des r ´esultats obtenus sur une esp `ece mod `ele peuvent ˆetre transpos ´es `a une autre esp `ece.

Cela constitue un enjeu pour la biologie au sens large, avec des r ´epercussion pour la sant ´e humaine aussi bien que pour l’ ´economie. En ce qui concerne le m ´etabolisme des lipides, il existe des pathologies humaines. De plus, la compr ´ehension des m ´ecanismes d’engraissement impacte aussi bien l’ ´economie que le bien- ˆetre animal.

Nous avons d ´evelopp ´e au cours de cette th `ese une m ´ethode de comparaison inter- esp `eces de voies m ´etaboliques. Il faut rappeler que le r ´esultat de cette comparaison d ´epend grandement de la quantit ´e et de la qualit ´e d’informations disponibles pour chaque esp `ece que l’on veut comparer. Les donn ´ees n ´ecessaires sont de trois types : comment s’organise la voie m ´etabolique `a comparer chez les deux esp `eces (quelle est sa struc- ture?), quels sont les produits de g `enes qui interviennent `a chaque ´etape de la voie m ´etabolique, et quelle est l’annotation fonctionnelle disponible pour ces produits de g `enes.

Plus chacun de ces types de donn ´ees est renseign ´e, plus le r ´esultat de notre comparaison sera fiable.

La comparaison inter-esp `eces de voies m ´etaboliques repose sur une ou plusieurs bases de donn ´ees contenant la succession des r ´eactions chez les esp `eces `a comparer.

Des produits de g `enes interviennent tout au long de chaque voie m ´etabolique, la plupart en tant qu’enzyme catalysant une r ´eaction. Ces produits de g `enes sont annot ´es par des termes de Gene Ontology, ce qui permet de les comparer entre eux `a l’aide d’une mesure de similarit ´e. Comparer des ensembles de termes GO demande une mesure capable de prendre en compte l’h ´eritage qui existe entre ces termes. On parle de mesure de similarit ´e s ´emantique. Dans notre cas, nous recherchions une mesure qui supportait la comparai- son de g `enes entre esp `eces. Cette condition n’est pas respect ´ee par les m ´ethodes bas ´ees sur le contenu d’information (“Information Content”, IC) des termes GO. En effet, l’IC d’un terme d ´epend de la probabilit ´e qu’il annote un g `ene. Cette probabilit ´e est calcul ´ee par la fr ´equence `a laquelle le terme annote un g `ene. Il est possible de calculer cette fr ´equence

192 Conclusion g´en´erale

sur l’annotation de chaque esp `ece, menant `a autant de valeurs d’IC pour chaque terme qu’il y a d’esp `eces et emp ˆechant la comparaison inter-esp `eces. Il est ´egalement possible de calculer cette fr ´equence en cumulant toutes les annotations de toutes les esp `eces, mais cela conduit `a un fort biais en faveur des caract ´eristiques les mieux connues des esp `eces les plus ´etudi ´ees. La comparaison inter-esp `ece est possible avec les m ´ethodes bas ´ees sur les ar ˆetes, puisqu’elles ne d ´ependent pas d’un corpus d’annotations. Cepen- dant, le fait que la pr ´ecision des termes GO ne soit pas homog `ene en fonction de leur profondeur affaiblit la pertinence des r ´esultats obtenus par ces m ´ethodes. La m ´ethode hybride de Wang est celle qui se rapproche le plus d’une m ´ethode bas ´ee sur les nœuds sans ˆetre d ´ependante d’un corpus d’annotations. Elle a donc ´et ´e choisie comme mesure de similarit ´e pour proc ´eder `a nos comparaisons inter-esp `eces.

Comme toutes les mesures de similarit ´e, la mesure de Wang est capable d’attribuer

`a deux g `enes g1 et g2 une similarit ´e haute tr `es proche de celle qu’elle attribue `a deux autres g `enes g3 et g4 `a partir du moment o `u g1 et g2, comme g3 et g4 ont suffisamment d’annotations en commun, et ce m ˆeme s’il s’av `ere que dans une de ces paires de g `enes, un g `ene a en plus des annotations sp ´ecifiques qui traduisent des caract ´eristiques biolo- giques particuli `eres. Or la comparaison inter-esp `eces de voies m ´etaboliques se doit de quantifier non seulement la similarit ´e des produits de g `enes qui interviennent dans celles- ci, mais ´egalement leurs particularit ´es, puisque ce sont principalement celles-ci qui nous int ´eressent. Nous avions donc besoin d’une mesure de particularit ´e s ´emantique capable de distinguer des g `enes ayant des fonctions particuli `eres m ˆeme parmi des g `enes ayant une forte similarit ´e.

Nous avons donc propos ´e une mesure de particularit ´e s ´emantique qui repose sur la notion d’informativit ´e, qui est compatible avec les approches bas ´ees sur le contenu d’in- formation aussi bien qu’avec la valeur s ´emantique de l’approche de Wang. Nous avons d ´emontr ´e l’utilit ´e de la mesure de particularit ´e s ´emantique, notamment pour identifier et quantifier des caract ´eristiques propres `a un produit de g `ene compar ´e `a des produits de g `enes similaires. Cette mesure ne remplace pas une mesure de similarit ´e, mais devrait ˆetre utilis ´ee conjointement `a une telle mesure. La mesure de similarit ´e s ´emantique est sym ´etrique. Ce n’est pas le cas de la mesure de particularit ´e s ´emantique, puisque la particularit ´e mesur ´ee en comparant A `a B est g ´en ´eralement diff ´erente de la particularit ´e r ´eciproque. Lorsque l’on compare deux g `enes ou deux ´etapes de voies m ´etaboliques, on obtient donc des profils sous forme de triplets (similarit ´e, particularit ´e, particularit ´e r ´eciproque).

Dans le cadre d’une comparaison inter-esp `eces, une les configurations de triplets in- diquant `a la fois une forte similarit ´e et une forte particularit ´e nous permet d’identifer des fonctions propres `a une esp `ece au sein d’un m ´etabolisme qui paraˆıt au premier abord simplementsimilaire. Ces cas ne sont pas d ´etectables en utilisant seulement une me- sure de similarit ´e s ´emantique. La comparaison s ´emantique de produits de g `enes repose donc sur l’interpr ´etation des triplets obtenus en utilisant une mesure de similarit ´e et notre mesure de particularit ´e.

Hormis les cas extr `emes, qui sont rarement les plus int ´eressants, cette interpr ´etation est difficile, faute de savoir `a partir de quelle valeur de similarit ´e deux g `enes sont simi- laires, et `a partir de quelle valeur de particularit ´e un g `ene a des fonctions significativement

Conclusion g´en´erale 193

diff ´erentes d’un autre g `ene. Nous ne disposions donc pas de m ´ethode capable de valider l’interpr ´etation de valeurs de similarit ´e et de particularit ´e de fac¸on `a d ´eterminer si deux g `enes ou ensembles de g `enes sont similaires ou si un g `ene poss `ede une fonction parti- culi `ere significative. Cette interpr ´etation ´etaient jusque l `a souvent bas ´ee soit sur un seuil implicite (on parlait de valeur de similarit ´e forteoufaible) ou arbitraire (typique- ment 0.5, qui repr ´esente la moiti ´e de l’intervalle dans lequel se projettent les r ´esultats de la plupart des mesures).

Nous avons donc d ´evelopp ´e une m ´ethode capable de d ´eterminer un seuil de simila- rit ´e et un seuil de particularit ´e. La d ´efinition de seuils de similarit ´e pour diff ´erentes me- sures couramment utilis ´ees permet d’identifier les produits de g `enes similaires. Le seuil d ´efini pour la m ´ethode de Wang est utile pour identifier des orthologues intervenant dans les voies m ´etaboliques homologues de diff ´erentes esp `eces comme similaires. D’apr `es les r ´esultats obtenus `a partir de la base de donn ´ees HomoloGene, la plupart des ortho- logues correctement annot ´es sont similaires. La d ´efinition du seuil de particularit ´e per- met de savoir si les fonctions sp ´ecifiques `a un produit de g `ene lorsqu’on le compare `a un produit de g `ene similaire d’une autre esp `ece sont anecdotiques ou importantes. Ces seuils nous permettent l’interpr ´etation des r ´esultats obtenus lors de la comparaison inter- esp `eces syst ´ematique de tous les produits de g `enes d’une voie m ´etabolique homologue.

Muni de mesures pertinentes et d’une aide `a l’interpr ´etation des r ´esultats, nous avons pu proc ´eder `a la comparaison d’un m ´etabolisme entre plusieurs esp `eces. Au travers de l’exemple de la comparaison du m ´etabolisme des lipides chez l’Homme, la souris et la poule, nous avons pu aborder cette probl ´ematique sous les trois angles que sont la com- paraison de la structure de la voie m ´etabolique, la mesure de la similarit ´e s ´emantique des produits de g `enes pr ´esents `a chaque ´etape, et la mesure de leur particularit ´e. Ces trois approches sont compl ´ementaires et leurs r ´esultats peuvent ˆetre rassembl ´es dans un graphe pr ´esentant `a la fois la structure de la voie m ´etabolique, les points communs et les diff ´erences au niveau fonctionnel. L’utilisation d’un seuil de similarit ´e et de particularit ´e a permis de distinguer des cas potentiellement int ´eressants, qu’ils refl `etent une possible r ´ealit ´e biologique (seulement “possible” car sous l’hypoth `ese d’un monde ouvert) ou une vraisemblable erreur dans une base de donn ´ees.