Les moyens mis en oeuvre pour partager l’information

1.4 Le besoin d’accès à des multiples sources

2.1.2 Les moyens mis en oeuvre pour partager l’information

2.1. Partage de l’information biologique

FIG. 2.2 – Format EMBL d’une séquence nucléotidique

maires (figure2.2). La grande force du langage XML est d’être, avant tout, un standard et donc d’être supporté par un ensemble d’applicatifs et d’interfaces de programmation qui vont en faciliter l’exploitation. Les primitives de modélisation proposées par XML (ELEMENT, ENTITY, ATTLIST ...) sont simples mais vont grandement faciliter l’accès et le traitement des données par comparaison avec les formats de données propriétaires. Enfin, la notion d’espace de noms rend XML extensible et modulaire et offre la possibilité d’intégrer différentes structures XML.

Ces derniers points ont été à l’origine de la création de nombreuses grammaires consacrées à la représentation de données biologiques. Citons dans ce sens, MAGE-ML¹⁹[SMS⁺02], BSML²⁰, SBML²¹ [HFB⁺04], ou encore INSDseq²² que nous allons détailler ci-dessous.

Tous ces langages ont pour objectifs de (i) définir le vocabulaire nécessaire afin de représen- ter de manière partagée l’information associée à une problématique biologique et de (ii) mettre en place des formats d’échange entre les applications biologiques.

MicroArray Gene Expression Markup Language (MAGE-ML) permet de décrire et de trans- férer des données d’expériences de transcriptomique (notamment à partir de puces de type MicroArray). Il propose dans ce cadre plusieurs sous-structures relatant de la conception des puces de leur fabrication , de l’expérience proprement dite ainsi que des données qui en résultent.

BSML donne une représentation des séquences biologiques et décrit en outre diverses repré- sentations graphiques tel que des gels d’électrophorèses ou des alignements multiples.

Le Systems Biology Markup Language (SBML) permet de représenter les modèles généraux des réseaux de réactions biochimiques telles que les réseaux métaboliques, les voies de signalisation cellulaire, les réseaux de régulation, etc. SMBL propose une modélisation suffisamment générique qui justifie son exploitation dans plus d’une centaine de logiciels.

INSDSeq est une structure XML collaborative pour faciliter l’échange de données de séquences entre les membres du consortium des banques de séquences nucléotidiques (GeneBank, EMBL, DDBJ).

Comme nous venons de le voir, les centres de ressources ont pris l’habitude depuis de nombreuses années de proposer aux biologistes un accès à des banques de données biologiques plutôt qu’à des bases de données. Ils gèrent néanmoins, de manière interne, les données biologiques au travers de bases de données le plus souvent relationnelles. Les Systèmes de Gestion de Bases de Données Relationnels (SGBDR) offrent en effet les meilleurs compromis pour ce qui concerne le stockage de gros volumes de données et la rapidité d’accès aux données en envi- ronnements multi-concurrents. Ces qualités sont renforcées par la présence au sein des SGBDR du langage standard de requête structuré SQL qui fait office à la fois de langage de définition des données, de langage de manipulation de données et enfin de langage de contrôle de don- nées. Les SGBD intègrent enfin des mécanismes pour garantir la sécurité des transactions et des systèmes ou encore des mécanismes d’optimisation des requêtes qui font toute leur force.

Dans un premier temps, les logiciels commerciaux tel que DB2, Oracle ou encore Sybase ont été préférés par les centres de ressources généralistes, pour implanter les bases de données in- ternes. Aujourd’hui les choses ont progressivement évolué, les sources de données spécialisées

19MicroArray and Gene Expression-Markup Language http ://www.mged.org/Workgroups/MAGE/mage- ml.html

20Bioinformatic Sequence Markup Language http ://www.bsml.org/

21System Biology Markup Language http ://sbml.org

22International Nucleotide Sequence Database Sequence http ://www.insdc.org/XMLStatus.html

2.1. Partage de l’information biologique

<EMBL_Services

xsi:noNamespaceSchemaLocation=

"http://www.ebi.ac.uk/embl/schema/EMBL_Services_V1.1.xsd">

<entry accession="CL520694" version="2" dataClass="GSS"

taxonomicDivision="PLN" created="2004-04-04" lastUpdated="2006-05-26"

releaseCreated="79" releaseLastUpdated="87">

MUL5B09 Flanking Sequence Tag of Oryza sativa T-DNA insertion lines Oryza sativa (japonica cultivar-group) genomic, genomic survey sequence.</description>

<citation id="1" type="journal article" name="Plant J."

volume="39" issue="3" first="450" last="464" year="2004">

<title>

High throughput T-DNA insertion mutagenesis in rice: a first step towards in silico reverse genetics.</title>

<author>Sallaud C.</author>

</citation>

</reference>

<comment> Contact: Guiderdoni...</comment>

<scientificName>Oryza sativa (japonica cultivar-group)</scientificName>

<taxon>Eukaryota</taxon> <taxon>Viridiplantae</taxon>

</lineage> </organism>

<qualifier name="cultivar"><value>Nipponbare</value> </qualifier>

<qualifier name="mol_type"><value>genomic DNA</value> </qualifier>

<value>

Flanking Sequence Tag of Oryza sativa T-DNA insertion line</value>

</qualifier>

</locationElement>

</location>

</feature>

tccaccaaaatatatgtgcaaattcgatctaaacgtccacaaacaaaaaagaccaattcag...

</sequence>

</entry>

</EMBL_Services>

FIG. 2.3 – Représentation d’une séquence sous le format XML d’EMBL

sont très souvent maintenues à l’aide de SGBDR libres comme PostgreSQL ou MySQL et sont rendues disponibles aux usagers au travers d’interfaces Web. L’émergence du Web tout comme la dynamique des logiciels et des langages libres ont entraîné l’apparition de multiples bases de données spécialisées maintenues par des communautés de scientifiques ne disposant pas néces- sairement de gros moyens.

En terme de modélisation, les données biologiques sont des données qui sont naturellement fortement agrégées. Pour exemple, un tissu est une collection de cellules, qui à leur tour sont une collection d’organites, qui à leur tour sont une collection de molécules, etc. La représentation de la complexité des données biologiques s’accommode donc fort mal des limites imposées par le modèle relationnel et notamment par la première forme normale dans le modèle relationnel qui va rendre nécessaire la décomposition de l’information dans de multiples relations. Dans ce sens, certains SGBDR, comme Oracle ou PostgreSQL proposent une surcouche objet, avec la possibilité par exemple de définir des types complexes, qui va permettre de mieux rendre compte de la réalité des objets biologiques.

Les systèmes de gestion de bases de données orientée objet (SGBDOO) sont des systèmes qui allient les concepts hérités du paradigme objet à l’instar des langages de programmation dit objets, et les qualités propres des systèmes de gestion de bases de données. Ils offrent l’avantage de manipuler puis de de traiter l’information de manière uniforme et donc de s’affranchir du problème bien connu dit de distorsion des langages (impedance mismatch) que l’on rencontre dès lorsqu’il s’agit d’imbriquer des ordres SQL dans un langage hôte de type procédural ou objet. Les concepts objets sont également particulièrement adaptés pour retranscrire la complexité et la dynamique des objets biologiques. Pour illustration, les liens d’héritage, d’agrégation ou encore de composition sont particulièrement bien pris en charge par la philosophie objet et vont permettre de relater de la diversité des objets biologiques et de leurs multiples interactions. Les liens d’héritage vont, additionnellement, permettre de manipuler les objets à différents niveaux de granularité et ainsi de mener des études sous des points de vue plus ou moins macroscopique ou microscopique selon les besoins. Par exemple, une protéine peut être modélisée au travers de ses différentes structures : structure primaire (séquence d’acides aminés), structure secon- daire (hélices alpha, feuillets beta, coudes, etc), structure ternaire (assemblage des différentes chaînes peptidiques), structure quaternaire ou encore être modélisée au travers de ses domaines fonctionnels et de ses interactions avec d’autres objets biologiques (métabolisme). Les classes d’objets prennent non seulement en charge l’état des objets mais aussi leurs comportements au travers de diverses méthodes. C’est là encore un avantage indéniable à mettre à l’actif des SGBDOO, les objets biologiques sont très fortement dynamiques et sont de plus très largement analysés au travers de multiples méthodes.

Il existe toutefois peu de bases de données biologiques supportées par des SGBDOO. Nous pouvons citer, dans ce sens, le système de gestion de données basé objet ACeDB²³(pour A Caenorhabditis. elegansDataBase) développé en 1989 dans le cadre du programme de séquen- çage du nématode Caenorhabditis elegans. Il s’agissait en 1989 de construire un système de gestion de données d’inspiration objet, entièrement dédié à l’exploitation de données issues de projets de séquençage. Il était courant de penser alors que les SGBDR n’étaient pas adaptés à la gestion de données biologiques. La tendance s’est inversée depuis. AceDB n’implémente

23http ://www.acedb.org/

2.1. Partage de l’information biologique toutefois pas toutes les caractéristiques d’un SGBDOO, son modèle est certes basé objet mais les classes AceDB sont dépourvues de méthodes par exemple. Il demeure encore très popu- laire dans la communauté biologique, notamment dans le contexte des projets de séquençage pour plusieurs raisons essentielles. AceDB est distribué en open source, il fournit un schéma de données générique pour la représentation de données issues de projets de séquençage et enfin il offre des interfaces graphiques de restitution de données particulièrement soignées et appréciées par les biologistes. EyeDB²⁴ [VBV99] est un autre système de gestion de bases de données orienté objet développé spécifiquement pour les besoins du projet de séquençage du génome humain au sein du CEPH (Centre d’Etudes du Polymorphisme Humain) et particuliè- rement pour l’exploitation d’objets cartographiques (notamment cartes physiques et génétiques du génome). EyeDB, plus difficile d’accès, n’a pas reçu le même succès qu’AceDB de la part de la communauté biologique. Enfin, certains SGBDOO commerciaux comme O2, ont égale- ment supporté le développement de bases de données génomiques. Le recours à des SGBDOO, à l’exception d’AceDB, dans le cadre de projets de génomique est cependant resté confidentiel.

La raison en est essentiellement la difficulté du passage à l’échelle, dès lorsqu’il s’agit de gérer de gros volumes de données.

No documento fonctionnelle végétale (páginas 57-62)