fonctionnelle végétale

La deuxième partie est consacrée aux différentes approches et expérimentations que nous avons réalisées dans le domaine de l'intégration de données de génomique végétale. Dans le chapitre 5, nous présentons les résultats de l’adaptation d’un système médiateur aux sources présentées au chapitre 4.

Introduction

La génomique végétale et le riz

Les caractéristiques agronomiques du riz

Deux espèces sont cultivées, Oryza sativa (génome A, 2n=24) avec une répartition mondiale et Oryza glaberrima (génome A, 2n=24), restreinte à l'Afrique de l'Ouest [Int05b]. La diversité génétique du riz est considérable avec plus de 150 000 variétés cultivées dans le monde et environ 107 000 accessions dans la banque de gènes de l'IRRI.

Le riz, une espèce modèle pour les Poacées

Depuis, des QTL ont été détectés pour de nombreux caractères (Xu, 2002, pour une revue [Xu02]). Les premiers QTL de riz ont été clonés par Yano et al. [YKA+00], à partir d'une série de lignées de substitution.

Le séquençage du génome du riz

1.2 – Représentation schématique des génomes du riz, du blé et du maïs, disposés selon le modèle des cercles concentriques. Les positions de certains gènes d'intérêt agronomique sont alignées avec les rayons du modèle (d'après Devos et Gale, 1997).

La génomique fonctionnelle

La mutagénèse

Les différents types de mutagénèse insertionnelle

L’ADN-T
Les transposons

Le riz possède un transposon Tos 17 endogène qui se déplace à travers le génome lors de la transformation des cals par Agrobacterium. Ces systèmes ont la particularité qu'en plus de l'insertion aléatoire dans le génome fournie par l'ADN-T, ils sont à nouveau délétés du gène interrompu.

Utilisation des collections d’insertion

Il s'agit de séquences d'ADN endogènes, également appelées éléments transposables, qui peuvent se déplacer de manière autonome dans le génome par un mécanisme appelé transposition. D'autres méthodes empruntées au maïs incluent l'incorporation dans des systèmes de transposons d'ADN-T tels que Ac/Ds (Activator/Dissociation) ou En/Spm (Enhencer/Suppressor-Mutator).

Le besoin d’accès à des multiples sources

Recherche d’information en génomique fonctionnelle

Exploitation des relations de synténie pour la découverte de gène . 29

Détection d’allèles correspondant à un gène candidat

L'exemple utilisé concerne le locus du génome du riz identifié par l'accession Os09g33930.1 dans la source de données OryGenesDB6. Les séquences sont ensuite alignées sur les pseudomolécules de riz à l'aide des outils (genome viewer, outil de recherche de similarité) de la base de données OryGenesDB.

Conclusion sur les scénarios d’usage

Pour beaucoup, ce concept est à l’origine du besoin d’intégration des sources de données en biologie, qui sera décrit plus en détail au chapitre 3. Dans une première partie, nous discuterons des politiques internationales d’échange de données des trois dernières décennies et de leurs traductions en termes non seulement des sources de données établies, mais également des moyens utilisés pour l’échange.

Organisation des sources de données

Ils ont un rôle complémentaire aux sources de données générales en enrichissant les informations produites par une expertise supplémentaire. Les catégories définies sont susceptibles d'évoluer dans le temps, elles ont surtout le mérite d'organiser les sources de données entre elles.

Les moyens mis en oeuvre pour partager l’information

Les données biologiques sont gérées en interne au travers de bases de données, majoritairement relationnelles. Enfin, certains SGBD commerciaux comme O2 ont également soutenu le développement de bases de données génomiques.

L’open source et partage des schémas de bases de données

Le projet Generic Model Database (GMOD28) bénéficie du même mouvement. L’objectif est de partager des schémas de données génériques, des outils de visualisation et d’édition du génome, des outils de recherche bibliographique, voire des outils de gestion d’ontologies au sein de la communauté biologique.

Les défis de l’intégration de données

La diversité et autonomie des sources à intégrer

Le schéma de base de données GMOD (CHADO) a été conçu pour être directement opérationnel sous les deux principaux SGBD distribués sous licences open source, à savoir PostgreSQL et MySQL. Les défis d'intégration des données thématiques peuvent avoir un niveau de détail différent (granularité), si les compromis de stockage vont vers les performances, alors il y a un appauvrissement du schéma de données.

Hétérogénéité des sources de données

Hétérogénéité syntaxique
Hétérogénéité sémantique

Définition variable Les sources de données peuvent différer dans la manière dont elles représentent les concepts clés autour des entités décrites [ELR01]. Hétérogénéité des valeurs Malgré la correspondance des concepts, une diversité intrinsèque se retrouve dans les différentes sources.

Standardisation des données

Les méta-données
Les ontologies

Représentation d’une ontologie
Alignement d’ontologies
Des éditeurs d’ontologies

Les ontologies et les méta-données dans le domaine biologique

Gene Ontology
EcoCyc
TAMBIS

Formats des données intégrées
Le type d’intégration
Le modèle de données ou le modèle pivot
Les degrés d’intégration sémantique
Le niveau de transparence
Construction du schéma global d’intégration
Choix de la localisation des sources
Langage de requêtes

Tous ces paramètres sont pris en compte lors de l’utilisation d’un langage dans une application. Les données semi-structurées ont une structure, mais qui n'est pas définie sous forme de schéma [BDH+95].

L’approche matérialisée

Les entrepôts de données

Dans ce domaine, les données sont agrégées dans un entrepôt au sein de structures appelées data marts. L’exploration de données est le processus d’extraction de connaissances à partir de grandes quantités de données.

Les entrepôts de données en bioinformatique

Le Genomics Unified Schema (GUS)43 est un référentiel de données conçu pour intégrer, analyser et représenter des données génomiques fonctionnelles. GEDAW [GMB+05] est une base de données dédiée à l'analyse des données d'expression des gènes hépatiques.

L’approche virtuelle

L’approche navigationnelle

Le domaine de la bioinformatique présente une grande variété de liens entre les sources de données. Les points représentent les sources tandis que les flèches représentent les liens entre les sources.

La médiation

Une façon de comparer les architectures de médiation est de savoir comment le schéma global est conçu [Lev99]. L'approche GAV (Global As View) [Hal01] définit le schéma global comme une vue des schémas sources.

Systèmes bioinformatiques utilisant l’approche de médiation

Cette hiérarchie de haut niveau est étendue dans TAMBIS avec une hiérarchie de bas niveau représentant les connaissances des utilisateurs dans le domaine biologique. Ces requêtes sont converties en langage CPL [HSO94], qui correspond aux différentes sources de données.

Discussion

Les approches virtuelles sont plus adaptées aux analyses ponctuelles de petites quantités de données. Nous constatons que la plupart des approches virtuelles n'effectuent qu'une intégration horizontale des données en intégrant uniquement des sources de données complémentaires.

Introduction

Oryza Tag Line

Matériels et méthodes

Conception et mise en oeuvre
Contenu du système

Des tests ont été effectués 5 jours après l'infection pour évaluer la résistance ou la sensibilité au champignon. Pour les tests GFP, en plus des mêmes tests que pour le GUS, les tissus des racines et des tiges des semis T1 3 et 5 jours après la germination ont également été testés.

Résultats

Analyses des données
L’interface du système

Les personnages ont été annotés avec des termes de Plant Ontology lorsqu'ils correspondaient parfaitement [JAI+05,WJN+02]. Recherche par vocabulaire contrôlé Une grande partie des données stockées dans la base de données est annotée selon différentes listes de vocabulaire contrôlé [HCI+04, IKJ+07, JAI+05, PJK+06, WJN+02, YJ05] (ex. propriété, plante structure, stade de croissance des grains et ontologie des gènes).

Discussion

Les résultats indiquent également la présence de FST, permettant dans un deuxième temps de rechercher des informations sur les gènes responsables des mutations. Il existe une multitude d'informations disponibles, notamment la disponibilité des semences, la présence du FST et toutes les observations sur la ligne.

OryGenesDB

Matériels et méthodes

Conception et développement
Contenu

4.5 – Description de l'origine des données FST Les espèces sont positionnées sur le génome du riz (blé, riz, maïs, etc.). La figure 4.5 décrit toutes les données FST stockées dans la base de données, ainsi que leur origine.

Résultats

L’interface de requête

Cette interface permet de soumettre une séquence qui est ensuite analysée pour trouver des FST. Ajouter des annotations au génome Cet outil permet de placer graphiquement une séquence (à partir d'un autre emplacement) sur le génome du riz avec ses annotations.

Discussion

Il génère également un fichier GFF pouvant être réutilisé dans une autre application. Recherche de locus L'interface de recherche de locus vous permet de soumettre une liste de noms de gènes pour récupérer des TSF avec des insertions contiguës.

Intérêt de l’intégration

Principales caractéristiques

Select est un système middleware développé depuis 1998 par le projet caravel54 dans le cadre du projet européen Thetis55 pour répondre aux besoins des applications scientifiques de partage de données et de programmes. Par convention, la publication de données rend les données disponibles sur un serveur Le Select.

L’accès aux données

Le rôle des adaptateurs
Le rôle du médiateur

Dans le cas de Le Select, les wrappers exportent la documentation sur la source et les données qu'elle contient. Mécanismes de visualisation Select possède des fonctions qui lui permettent d'effectuer des transformations sur les données publiées.

Description de l’intégration des sources

Description des sources

Modules de communication Une fois les données publiées, elles sont accessibles via les interfaces clients. La méthode la plus couramment utilisée est via l'interface JDBC, mais les données sont également accessibles via les protocoles FTP et HTTP, tels qu'implémentés par Le Select.

Publication des sources

Dans l'exemple présenté sur cette figure, les données proviennent de la table TRAIT et représentent les caractères phénotypiques observés dans une collection de mutants de riz. Les données sont extraites directement de la base de données par lewrapper, dans ce cas la structure de la table n'est pas modifiée.

Intégration sémantique des sources de données

Pré-intégration
Recherche de correspondances inter-schémas
Intégration
Construction d’une ontologie

Les termes du vocabulaire (hyperonymie, hyponymie) sont affinés grâce à une association réflexive d'Ontology_element à Ontology_element. Il nous est alors possible de décrire ce conflit par l'un des deux ACI ci-dessous : OT L.Plant⊆BRC−DB.Plant.

Interrogation transparente des sources

Construction des vues

Recherche de ressources transparente Construction de matériaux : la vue des matériaux se compose d'éléments de 3 tables (BRC.material, .OTL.plant et OTL.LINE). Construire la ligne : comme la vue précédente, celle-ci est composée de la jointure de deux tables (BRC.line et OTL.line).

Exemples de requêtes

Construction de mutant_plant : Cette vue est essentiellement construite en utilisant les attributs provenant d'OTL.plant, c'est-à-dire génération, transformation, mort, mendélien et sélectionné. Construction d'une image : C'est aussi le résultat de la combinaison des deux tables d'images dans les schémas locaux.

Conclusion

Définitions

La communication avec le fournisseur de services implique l'utilisation de messages SOAP, ce qui signifie l'existence d'un serveur SOAP chez le fournisseur de services et d'un client SOAP chez le demandeur. Le fournisseur de services doit fournir des informations sur (i) les opérations prises en charge, (ii) les protocoles de communication/transport par lesquels ces opérations sont prises en charge, (iii) les points de terminaison du réseau pour ce service (par exemple, l'URL du serveur HTTP).

Utilisation des Services Web dans le domaine de la biologie

En effet, via un annuaire central, l'application offre aux fournisseurs la possibilité d'enregistrer et de décrire leurs services, en tenant compte de l'ontologie. Bien qu'il ne soit pas spécifique à la bioinformatique, l'objectif de ce projet est de développer un middleware permettant la création de séquences de services web réutilisables.

Evolutions des standards associés aux Services Web

Développement d’une application intégrée utilisant des services web

Analyse de l’existant

Nous participons à des projets de génomique fonctionnelle et développons des ressources biologiques et informatiques spécifiques au riz. Dans ce domaine, nous avons créé GreenPhylDB, une ressource génomique comparative entre les deux génomes modèles (c'est-à-dire Arabidopsis thaliana et Oryza sativa).

Définition des cas d’utilisation

Matériels et méthodes

Description de la plateforme BioMoby
Conception des services web
L’enchaînement des services web

La figure 6.5 illustre la description d'un service Web tel qu'il peut être trouvé en exécutant un simple client. Ces informations, ajoutées au nom du service et à son adresse URL, sont retrouvées lors de l'appel de découverte de service (étape 2 de la Figure 6.4) et constituent les informations nécessaires et suffisantes pour exécuter un service Web.

graphique nommé Dashboard, qui permet toutes ces étapes d’enregistrement de service ainsi que des outils de visualisation afin de naviguer dans les différentes ontologies ou de tester les services.

Résultats

Création des services web
Développement de workflows
Implémentation de l’interface Web utilisateur

Développement d'une application intégrée utilisant les services web Nr. Nom de la source d'entrée du service Web. Développement d'une application intégrée utilisant des services Web et pouvant donc s'exécuter simultanément.

Discussion

Dans une deuxième partie, nous présentons successivement les derniers éléments de nos deux expériences, que nous avons acquises dans le domaine de la mise en relation de données biologiques et qui se sont révélées instructives. Enfin, nous terminons par une projection vers l'avenir et notamment les efforts à consentir pour doter les biologistes du Cirad d'un système pleinement fonctionnel d'intégration des sources de données végétales.

<class name="Pseudochromosome" table="PSEUDOCHROMOSOME">

Discussion

Expérimentation menée au travers de Le Select

Intégration de sources de données par le biais de services web

Une connexion efficace à Internet de services potentiellement complémentaires nécessite toujours une intervention manuelle de l’utilisateur. Dans ce dernier cas, il est préférable de modifier les services pour qu'ils gèrent des collections de types de données d'entrée, ce qui permet de n'utiliser le service qu'une seule fois et donc de supprimer les multiples appels à l'annuaire central BioMoby.

Perspectives

Dans le domaine de la gestion des résultats, des outils de visualisation doivent être envisagés. Création d'une table de résultats de type GCP_Feature // et remplissage de la table à partir du vecteur.