La deuxième partie est consacrée aux différentes approches et expérimentations que nous avons réalisées dans le domaine de l'intégration de données de génomique végétale. Dans le chapitre 5, nous présentons les résultats de l’adaptation d’un système médiateur aux sources présentées au chapitre 4.
Introduction
La génomique végétale et le riz
Les caractéristiques agronomiques du riz
Deux espèces sont cultivées, Oryza sativa (génome A, 2n=24) avec une répartition mondiale et Oryza glaberrima (génome A, 2n=24), restreinte à l'Afrique de l'Ouest [Int05b]. La diversité génétique du riz est considérable avec plus de 150 000 variétés cultivées dans le monde et environ 107 000 accessions dans la banque de gènes de l'IRRI.
Le riz, une espèce modèle pour les Poacées
Depuis, des QTL ont été détectés pour de nombreux caractères (Xu, 2002, pour une revue [Xu02]). Les premiers QTL de riz ont été clonés par Yano et al. [YKA+00], à partir d'une série de lignées de substitution.
Le séquençage du génome du riz
1.2 – Représentation schématique des génomes du riz, du blé et du maïs, disposés selon le modèle des cercles concentriques. Les positions de certains gènes d'intérêt agronomique sont alignées avec les rayons du modèle (d'après Devos et Gale, 1997).
La génomique fonctionnelle
La mutagénèse
Les différents types de mutagénèse insertionnelle
- L’ADN-T
- Les transposons
Le riz possède un transposon Tos 17 endogène qui se déplace à travers le génome lors de la transformation des cals par Agrobacterium. Ces systèmes ont la particularité qu'en plus de l'insertion aléatoire dans le génome fournie par l'ADN-T, ils sont à nouveau délétés du gène interrompu.
Utilisation des collections d’insertion
Il s'agit de séquences d'ADN endogènes, également appelées éléments transposables, qui peuvent se déplacer de manière autonome dans le génome par un mécanisme appelé transposition. D'autres méthodes empruntées au maïs incluent l'incorporation dans des systèmes de transposons d'ADN-T tels que Ac/Ds (Activator/Dissociation) ou En/Spm (Enhencer/Suppressor-Mutator).
Le besoin d’accès à des multiples sources
Recherche d’information en génomique fonctionnelle
Exploitation des relations de synténie pour la découverte de gène . 29
- Détection d’allèles correspondant à un gène candidat
L'exemple utilisé concerne le locus du génome du riz identifié par l'accession Os09g33930.1 dans la source de données OryGenesDB6. Les séquences sont ensuite alignées sur les pseudomolécules de riz à l'aide des outils (genome viewer, outil de recherche de similarité) de la base de données OryGenesDB.
Conclusion sur les scénarios d’usage
Pour beaucoup, ce concept est à l’origine du besoin d’intégration des sources de données en biologie, qui sera décrit plus en détail au chapitre 3. Dans une première partie, nous discuterons des politiques internationales d’échange de données des trois dernières décennies et de leurs traductions en termes non seulement des sources de données établies, mais également des moyens utilisés pour l’échange.
Organisation des sources de données
Ils ont un rôle complémentaire aux sources de données générales en enrichissant les informations produites par une expertise supplémentaire. Les catégories définies sont susceptibles d'évoluer dans le temps, elles ont surtout le mérite d'organiser les sources de données entre elles.
Les moyens mis en oeuvre pour partager l’information
Les données biologiques sont gérées en interne au travers de bases de données, majoritairement relationnelles. Enfin, certains SGBD commerciaux comme O2 ont également soutenu le développement de bases de données génomiques.
L’open source et partage des schémas de bases de données
Le projet Generic Model Database (GMOD28) bénéficie du même mouvement. L’objectif est de partager des schémas de données génériques, des outils de visualisation et d’édition du génome, des outils de recherche bibliographique, voire des outils de gestion d’ontologies au sein de la communauté biologique.
Les défis de l’intégration de données
La diversité et autonomie des sources à intégrer
Le schéma de base de données GMOD (CHADO) a été conçu pour être directement opérationnel sous les deux principaux SGBD distribués sous licences open source, à savoir PostgreSQL et MySQL. Les défis d'intégration des données thématiques peuvent avoir un niveau de détail différent (granularité), si les compromis de stockage vont vers les performances, alors il y a un appauvrissement du schéma de données.
Hétérogénéité des sources de données
- Hétérogénéité syntaxique
- Hétérogénéité sémantique
Définition variable Les sources de données peuvent différer dans la manière dont elles représentent les concepts clés autour des entités décrites [ELR01]. Hétérogénéité des valeurs Malgré la correspondance des concepts, une diversité intrinsèque se retrouve dans les différentes sources.
Standardisation des données
- Les méta-données
- Les ontologies
- Représentation d’une ontologie
- Alignement d’ontologies
- Des éditeurs d’ontologies
- Les ontologies et les méta-données dans le domaine biologique
- Gene Ontology
- EcoCyc
- TAMBIS
- Formats des données intégrées
- Le type d’intégration
- Le modèle de données ou le modèle pivot
- Les degrés d’intégration sémantique
- Le niveau de transparence
- Construction du schéma global d’intégration
- Choix de la localisation des sources
- Langage de requêtes
Tous ces paramètres sont pris en compte lors de l’utilisation d’un langage dans une application. Les données semi-structurées ont une structure, mais qui n'est pas définie sous forme de schéma [BDH+95].
L’approche matérialisée
Les entrepôts de données
Dans ce domaine, les données sont agrégées dans un entrepôt au sein de structures appelées data marts. L’exploration de données est le processus d’extraction de connaissances à partir de grandes quantités de données.
Les entrepôts de données en bioinformatique
Le Genomics Unified Schema (GUS)43 est un référentiel de données conçu pour intégrer, analyser et représenter des données génomiques fonctionnelles. GEDAW [GMB+05] est une base de données dédiée à l'analyse des données d'expression des gènes hépatiques.
L’approche virtuelle
L’approche navigationnelle
Le domaine de la bioinformatique présente une grande variété de liens entre les sources de données. Les points représentent les sources tandis que les flèches représentent les liens entre les sources.
La médiation
Une façon de comparer les architectures de médiation est de savoir comment le schéma global est conçu [Lev99]. L'approche GAV (Global As View) [Hal01] définit le schéma global comme une vue des schémas sources.
Systèmes bioinformatiques utilisant l’approche de médiation
Cette hiérarchie de haut niveau est étendue dans TAMBIS avec une hiérarchie de bas niveau représentant les connaissances des utilisateurs dans le domaine biologique. Ces requêtes sont converties en langage CPL [HSO94], qui correspond aux différentes sources de données.
Discussion
Les approches virtuelles sont plus adaptées aux analyses ponctuelles de petites quantités de données. Nous constatons que la plupart des approches virtuelles n'effectuent qu'une intégration horizontale des données en intégrant uniquement des sources de données complémentaires.
Introduction
Oryza Tag Line
Matériels et méthodes
- Conception et mise en oeuvre
- Contenu du système
Des tests ont été effectués 5 jours après l'infection pour évaluer la résistance ou la sensibilité au champignon. Pour les tests GFP, en plus des mêmes tests que pour le GUS, les tissus des racines et des tiges des semis T1 3 et 5 jours après la germination ont également été testés.
Résultats
- Analyses des données
- L’interface du système
Les personnages ont été annotés avec des termes de Plant Ontology lorsqu'ils correspondaient parfaitement [JAI+05,WJN+02]. Recherche par vocabulaire contrôlé Une grande partie des données stockées dans la base de données est annotée selon différentes listes de vocabulaire contrôlé [HCI+04, IKJ+07, JAI+05, PJK+06, WJN+02, YJ05] (ex. propriété, plante structure, stade de croissance des grains et ontologie des gènes).
Discussion
Les résultats indiquent également la présence de FST, permettant dans un deuxième temps de rechercher des informations sur les gènes responsables des mutations. Il existe une multitude d'informations disponibles, notamment la disponibilité des semences, la présence du FST et toutes les observations sur la ligne.
OryGenesDB
Matériels et méthodes
- Conception et développement
- Contenu
4.5 – Description de l'origine des données FST Les espèces sont positionnées sur le génome du riz (blé, riz, maïs, etc.). La figure 4.5 décrit toutes les données FST stockées dans la base de données, ainsi que leur origine.
Résultats
- L’interface de requête
Cette interface permet de soumettre une séquence qui est ensuite analysée pour trouver des FST. Ajouter des annotations au génome Cet outil permet de placer graphiquement une séquence (à partir d'un autre emplacement) sur le génome du riz avec ses annotations.
Discussion
Il génère également un fichier GFF pouvant être réutilisé dans une autre application. Recherche de locus L'interface de recherche de locus vous permet de soumettre une liste de noms de gènes pour récupérer des TSF avec des insertions contiguës.
Intérêt de l’intégration
Principales caractéristiques
Select est un système middleware développé depuis 1998 par le projet caravel54 dans le cadre du projet européen Thetis55 pour répondre aux besoins des applications scientifiques de partage de données et de programmes. Par convention, la publication de données rend les données disponibles sur un serveur Le Select.
L’accès aux données
- Le rôle des adaptateurs
- Le rôle du médiateur
Dans le cas de Le Select, les wrappers exportent la documentation sur la source et les données qu'elle contient. Mécanismes de visualisation Select possède des fonctions qui lui permettent d'effectuer des transformations sur les données publiées.
Description de l’intégration des sources
Description des sources
Modules de communication Une fois les données publiées, elles sont accessibles via les interfaces clients. La méthode la plus couramment utilisée est via l'interface JDBC, mais les données sont également accessibles via les protocoles FTP et HTTP, tels qu'implémentés par Le Select.
Publication des sources
Dans l'exemple présenté sur cette figure, les données proviennent de la table TRAIT et représentent les caractères phénotypiques observés dans une collection de mutants de riz. Les données sont extraites directement de la base de données par lewrapper, dans ce cas la structure de la table n'est pas modifiée.
Intégration sémantique des sources de données
- Pré-intégration
- Recherche de correspondances inter-schémas
- Intégration
- Construction d’une ontologie
Les termes du vocabulaire (hyperonymie, hyponymie) sont affinés grâce à une association réflexive d'Ontology_element à Ontology_element. Il nous est alors possible de décrire ce conflit par l'un des deux ACI ci-dessous : OT L.Plant⊆BRC−DB.Plant.
Interrogation transparente des sources
Construction des vues
Recherche de ressources transparente Construction de matériaux : la vue des matériaux se compose d'éléments de 3 tables (BRC.material, .OTL.plant et OTL.LINE). Construire la ligne : comme la vue précédente, celle-ci est composée de la jointure de deux tables (BRC.line et OTL.line).
Exemples de requêtes
Construction de mutant_plant : Cette vue est essentiellement construite en utilisant les attributs provenant d'OTL.plant, c'est-à-dire génération, transformation, mort, mendélien et sélectionné. Construction d'une image : C'est aussi le résultat de la combinaison des deux tables d'images dans les schémas locaux.
Conclusion
Définitions
La communication avec le fournisseur de services implique l'utilisation de messages SOAP, ce qui signifie l'existence d'un serveur SOAP chez le fournisseur de services et d'un client SOAP chez le demandeur. Le fournisseur de services doit fournir des informations sur (i) les opérations prises en charge, (ii) les protocoles de communication/transport par lesquels ces opérations sont prises en charge, (iii) les points de terminaison du réseau pour ce service (par exemple, l'URL du serveur HTTP).
Utilisation des Services Web dans le domaine de la biologie
En effet, via un annuaire central, l'application offre aux fournisseurs la possibilité d'enregistrer et de décrire leurs services, en tenant compte de l'ontologie. Bien qu'il ne soit pas spécifique à la bioinformatique, l'objectif de ce projet est de développer un middleware permettant la création de séquences de services web réutilisables.
Evolutions des standards associés aux Services Web
Développement d’une application intégrée utilisant des services web
Analyse de l’existant
Nous participons à des projets de génomique fonctionnelle et développons des ressources biologiques et informatiques spécifiques au riz. Dans ce domaine, nous avons créé GreenPhylDB, une ressource génomique comparative entre les deux génomes modèles (c'est-à-dire Arabidopsis thaliana et Oryza sativa).
Définition des cas d’utilisation
Matériels et méthodes
- Description de la plateforme BioMoby
- Conception des services web
- L’enchaînement des services web
La figure 6.5 illustre la description d'un service Web tel qu'il peut être trouvé en exécutant un simple client. Ces informations, ajoutées au nom du service et à son adresse URL, sont retrouvées lors de l'appel de découverte de service (étape 2 de la Figure 6.4) et constituent les informations nécessaires et suffisantes pour exécuter un service Web.
Résultats
- Création des services web
- Développement de workflows
- Implémentation de l’interface Web utilisateur
Développement d'une application intégrée utilisant les services web Nr. Nom de la source d'entrée du service Web. Développement d'une application intégrée utilisant des services Web et pouvant donc s'exécuter simultanément.
Discussion
Dans une deuxième partie, nous présentons successivement les derniers éléments de nos deux expériences, que nous avons acquises dans le domaine de la mise en relation de données biologiques et qui se sont révélées instructives. Enfin, nous terminons par une projection vers l'avenir et notamment les efforts à consentir pour doter les biologistes du Cirad d'un système pleinement fonctionnel d'intégration des sources de données végétales.
Discussion
Expérimentation menée au travers de Le Select
Intégration de sources de données par le biais de services web
Une connexion efficace à Internet de services potentiellement complémentaires nécessite toujours une intervention manuelle de l’utilisateur. Dans ce dernier cas, il est préférable de modifier les services pour qu'ils gèrent des collections de types de données d'entrée, ce qui permet de n'utiliser le service qu'une seule fois et donc de supprimer les multiples appels à l'annuaire central BioMoby.
Perspectives
Dans le domaine de la gestion des résultats, des outils de visualisation doivent être envisagés. Création d'une table de résultats de type GCP_Feature // et remplissage de la table à partir du vecteur.