Matériels et méthodes - fonctionnelle végétale

4.3 OryGenesDB

4.3.1 Matériels et méthodes

représentée dans la partie A. Dans ce cas, cette liste est le résultat d’une recherche d’expression GFP dans les fleurs. Les résultats indiquent également la présence de FST afin de pouvoir rechercher, dans un second temps, des informations sur les gènes responsables des mutations.

La sélection d’un lignée particulière permet d’afficher des informations générales (partie B). De nombreuses informations sont disponibles entre autre la disponibilité de graines, la présence de FST ainsi que toutes les observations réalisées sur la lignée. A partir d’un lien de référence croisée, il est possible de voir la position du site d’insertion de la FST dans le génome du riz (via OryGenesDB) et donc de connaître les gènes proches de l’insertion (partie E). Par ailleurs, il est possible de visualiser les observations détaillées (partie C et D).

4.2.3 Discussion

Avec les 13 928 lignées caractérisées pour 266 caractères phénotypiques d’intérêt, Oryza Tag Line représente, avec les bases de données Tos17 du NIAS [MIK⁺07] et de T-DNA RMD [ZLW⁺06], une ressource très utile pour la recherche en génomique fonctionnelle. De nouvelles observations sont continuellement intégrées dans la base, l’objectif étant d’atteindre les 30 000 lignées annotées.

Sur un plan technique, le système doit évoluer sur deux points importants : la généricité de son modèle afin qu’il prenne en compte les besoins de la communauté graminées voir plantes et l’évolution de son interface de consultation pour qu’elle s’adapte aux préférences des utilisateurs.

Le modèle conceptuel évolue constamment afin de prendre en compte les nouveaux types de données à intégrer. Développé dans un premier temps, spécifiquement pour des projets d’ana- lyse chez le riz, le modèle doit être éprouvé de manière générique. Dans ce domaine, nous pouvons nous inspirer des deux projets Chado [MEC07] et CGP [BDH⁺06] qui proposent des modèles et des outils intéressants et "open source". De plus, l’utilisation de tels systèmes peut faciliter le partage d’information entre applications du même type.

Au niveau de l’interface Web, il est possible de sauvegarder les résultats dans un fichier Excel mais les utilisateurs ont besoin d’avoir un espace de travail virtuel dans lequel ils peuvent stocker leurs différentes recherches et les manipuler (par exemple, fusionner, effacer, etc.). Afin de partager et mutualiser le travail, cet espace de travail doit prendre en compte la notion de groupes dans lesquels sont partagées les données.

4.3. OryGenesDB

FIG. 4.2 – Description d’une recherche de mutant

FIG. 4.3 – Description des principales tables du module séquence pour le modèle chado. Le module séquence est organisé autour de l’entité feature. Elle est générique et représente tous les éléments d’annotation d’une séquence qui peuvent interagir avec le système. (d’après Mungall et al. [MEC07])

différentes sources. Le cœur d’OryGenesDB est une base de données dont le socle est Mysql, les langages de programmation perl et perl-cgi.

4.3.1.2 Contenu

L’ensemble des données contenu provient de sources externes. L’insertion des données est réalisée par des programmes adaptateurs spécifiques à chacune des sources. Nous détaillons brièvement les modes d’alimentation de la base intégrée à partir des diverses sources. Le socle génomique de référence correspond aux 12 pseudo-chromosomes distribués par le TIGR⁵¹. Le génome et son annotation sont téléchargés via le site FTP du TIGR puis insérés dans la base. A cela est superposé la couche d’annotation "officielle" délivré par le consortium IRGSP⁵²et dis- ponible sur Genbank. Des programmes recalculent les nouvelles coordonnées des annotations en fonction du référentiel choisi. En effet, les pseudo-molécules correspondent à des assem- blages de BAC, et sont donc dépendantes de l’état du séquençage ou des remaniements de ceux ci. Des versions de ces dernières sont régulièrement distribuées (une fois par an en moyenne).

Nous intégrons toujours à partir du site FTP du TIGR les données Genes Indices, collection de clusters d’EST (Expressed Sequence Tags) spécifiques d’une espèce. Les clusters de plusieurs

51http ://www.tigr.org/tdb/e2k1/osa1/

52http ://rgp.dna.affrc.go.jp/IRGSP/

4.3. OryGenesDB

FIG. 4.4 – Description de l’origine des données dans OryGenesDB

FIG. 4.5 – Description de la provenance des données FST espèces ont été positionnés sur le génome du riz (blé, riz, maïs, etc.).

Les données relatives aux génomes d’Oryza sativa et d’Arabidopsis ont été chargées dans la base et nous avons conçu des traitements afin d’extraire les associations entre gènes de même fonction biologique. Par exemple, 10 679 paires de gènes orthologues ont été identifiées avec Arabidopsisen utilisant la méthode de BBMH (Best Blast Mutual Hit)⁵³.

Enfin des marqueurs génétiques provenant de la source Gramene ont été stockés dans la base. OryGenesDB contient des données de FST (T-DNA et Tos17) issues notre propre projet mais intègre également des données publiques provenant d’autres collections de mutants. La figure4.5décrit l’ensemble des données FST stockées dans la base ainsi que leurs provenances.

53BBMH : cette méthode consiste à exécuter des blasts sur les deux protéomes. Les gènes qui sont identifiés comme orthologues auront un alignement réciproque entre les deux espèces

En plus de l’intégration des données génomique, l’atout principal du système réside dans son interface graphique paramétrable de visualisation du génome qui est une adaptation du na- vigateur de génome (GBrowse) développé par le Generic Model Organism Project (GMOD).

Le système met de plus à disposition plusieurs outils d’analyses et de recherches approfon- dies intégrés et accessibles grâce à une interface Web. Dans ce domaine, OryGenesDB utilise de nombreux développements communautaires comme Bioperl pour le traitement de tâches spéci- fiques. Par exemple, pour parser des fichiers Genbank ou TIGR XML contenant des annotations ou traiter des résultats d’alignements (BLAST, BLAT, CLUSTAL, etc.).

No documento fonctionnelle végétale (páginas 105-109)