Classification d’ARN codants et d’ARN non-codants

D'une part, Protea, consacré à la prédiction de séquences codantes homologues, et d'autre part, carNAc, consacré à la prédiction de structures secondaires conservées. La deuxième partie de ce chapitre est consacrée à l'application de Protea et du carRNA pour l'annotation de séquences génomiques.

L’ARN au sein de la cellule

Les organismes vivants
Le dogme central de la biologie mol´eculaire
Les acides nucl´eiques
La transcription d’un g`ene en un ARN
La maturation de l’ARN

Ce rôle de médiateur de l’information génétique constitue le premier rôle de l’ARN qui est alors appelé ARN messager. La composition des nucléotides n’est pas le seul élément qui diffère entre l’ADN et l’ARN.

Fig. 1.1 – Sch´ema d’une cellule eucaryote animale.

Les ARN codants

Les prot´eines

La traduction en prot´eine

Même si la grande majorité des organismes vivants utilisent le code génétique standard, il existe quelques exceptions à cette règle chez certains organismes pour lesquels les acides aminés codés ne sont pas les mêmes. . Par exemple, chez les champignons Candida le codon CUG habituellement traduit par leucine correspond à la sérine, ou encore chez certains procaryotes où le codon STOPUAG code parfois pour un acide aminé supplémentaire, la pyrrolysine.

Fig. 1.8 – Structure de l’ubiquitine d’Homo sapiens. Les h´elices alpha sont en rouge, les feuillets bˆeta en jaune.

La r´egulation de la transcription

Les ARN non-codants

La structure de l’ARN

La stabilité d'une molécule d'ARN est mesurée par son énergie libre dérivée des principes de la thermodynamique. La stabilité apportée par une tige dépend de sa longueur et de la nature de ses appariements : les paires canoniques (G≡C,A=U et G=U) sont plus stables que les paires non canoniques (G−A,C−U,.

Les familles d’ARN non-codants

La stabilité apportée par une tige dépend de sa longueur et de la nature de ses appariements : les appariements canoniques (G≡C,A=U etG=. L'observation de structures tridimensionnelles réelles a notamment permis le développement du Scor réalisé[KTHB02] base de données contenant plus de 8 000 modèles répétitifs.

Fig. 1.14 – Structures de l’ARN. Exemple d’un ´el´ement non traduit structur´e de l’ARN g´enomique du Tombusvirus

L’´evolution des acides nucl´eiques

Généralités
Les m´ecanismes de l’´evolution
L’´evolution des g`enes codants
L’´evolution des g`enes ` a ARN

Pour les séquences codantes, cette pression de sélection est liée à la fonctionnalité de la protéine produite. Une insertion ou une suppression dans la séquence codante peut augmenter ou diminuer la longueur de la protéine codée.

L’analyse comparative de s´equences nucl´eiques

L’alignement de s´equences comme support de l’analyse comparative . 24
Mise en œuvre bio-informatique
Le cadre ouvert de lecture
Les autres signaux li´es ` a la structure du g`ene
Les biais de composition de la s´equence codante
Les mises en œuvre logicielles

La sous-figure (a) de la figure 1.17 représente l'alignement de deux fragments de séquences codantes homologues. La sous-figure (b) de la figure 1.17 représente l'alignement des séquences d'ARN de transfert homologues.

Fig. 1.16 – Exemple d’alignement semi-global entre deux fragments de s´equences homologues de g`enes codants pour la prostaglandine dont le pourcentage d’identit´e est de 44,9%.

Les approches par homologie de s´equence

Similarit´e avec des s´equences peptidiques

Même lorsqu'une protéine similaire est disponible, il est difficile de déterminer la structure complète d'un gène, notamment les limites des extrémités 5' et 3'. De plus, les sites d'épissage dans GeneWise et GenomeScan sont détectés à l'aide d'un HMM, fortement inspiré de Genscans.

Similarit´e avec des s´equences transcrites

Le séquençage « classique » d'un ADNc permet d'obtenir de manière fiable la séquence complète. En effet, les ADNc étant issus d'ARN transcrits, ils contiennent, en plus de la séquence codante, les extrémités 5' et 3' non traduites.

Fig. 2.2 – Les EST sont issus du s´equen¸cage partiel des extr´emit´es d’un ARN mature, ici un ARN messager.

S´equences g´enomiques

Les approches par analyse comparative

Protea

Le mod`ele sur deux s´equences

Étant donné deux séquences coeurs, il faut donc comparer 36 paires de cadres de lecture, et donc 36 paires de séquences d'acides aminés possibles. Enfin, on compte le nombre de paires de séquences pour lesquelles la paire de trames de lecture correctes obtient le meilleur score parmi les 36 paires comparées.

Fig. 2.3 – On consid`ere deux paires de s´equence nucl´eiques, U = {u 1 , u 2 } et V = {v 1 , v 2 }.

L’extension ` a une famille de s´equences, le graphe des cadres de lecture 42

Grâce à cette définition de la traduction d'un alignement, des décalages de cadre de lecture positifs sont pris en charge entre des séquences regroupées dans la même méta-séquence. Sur l’exemple de la figure 2.3, la bonne paire de cadres de lecture pour les lignes de V est (1,1).

Mise en œuvre logicielle

Dans le cas de petits GCL, la détection d'ensembles de séquences codantes homologues se fait par un seuil sur le z-score du meilleur score global de tâche. 2.5 – En raison de la redondance du code génétique, les mutations dites silencieuses (positions grises) n'ont aucun effet sur les acides aminés codés.

R´esultats exp´erimentaux de Protea

L’´evaluation des performances de Protea

De manière analogue, la spécificité Sp dans un ensemble de données est donnée par. où. Ces résultats sont également présentés graphiquement dans la figure 2.7. a) Répartition des prédictions de « codage » dans l'ensemble de données CODANT. Fig.2.7 – Répartition des prédictions « codantes » de Protea dans les groupes de 11 séquences des jeux de données CODING (a) et NON-CODING (b).

Fig. 2.7 – R´epartition des pr´edictions “codant” de Protea sur les ensembles de 11 s´equences des jeux de donn´ees CODANT (a) et NONCODANT (b)

Une application au g´enome humain

Les résultats de Qrna et Protea sur les paires de séquences des ensembles de données CODING et NON-CODING sont présentés dans le tableau 2.2. 2.1 – Résultats de Protea sur les jeux de données CODING, NON-CODING et RANDOM de 3, 5 et 11 séquences. À partir de cet ensemble de données, seuls 0,8 % des ensembles de séquences devraient être « codants ».

Tab. 2.1 – Les r´esultats de Protea sur les jeux de donn´ees CODANT, NONCODANT et ALEATOIRE de 3, 5 et 11 s´equences

Conclusions

Il s’agit d’un signal important qui s’avère très utile pour la prédiction des gènes d’ARN. Dans la section 3.2, nous expliquons ensuite comment ces méthodes s'appliquent à la prédiction des gènes d'ARN. Prédire la structure secondaire d’un ARN est un problème bioinformatique relativement ancien.

La pr´ediction par approche thermodynamique

Chaque cellule E(i, j) de la matrice E correspond à l'énergie libre de la structure minimale d'énergie libre de la sous-séquence s[i.j], avec i≤j, des mots. Par construction, l’énergie libre de la structure minimale d’énergie libre se retrouve dans la cellule E(1, n). M1(i, j) correspond à l'énergie libre de la structure minimale d'énergie libre de la sous-séquence[i.j] sachant que cette sous-séquence fait partie d'une branche multiple comprenant exactement une composante.

Fig. 3.2 – Classification des composantes ferm´ees par un appariement. Les empilements, renflements et m´esappariements sont des cas particuliers de boucles internes.

La pr´ediction par analyse comparative

Il existe plusieurs implémentations de fonctions de partition pour la prédiction de structure secondaire : RNAfold, Sfold [DL99, DCL04] et une implémentation pour les machines massivement parallèles [FHS00]. Fig.3.5 – Alignement de sept séquences d'ARN de transfert, montrant une structure commune. Un bonus est appliqué en fonction de la corrélation entre les colonnes correspondantes.

Fig. 3.5 – Alignement de sept s´equences d’ARN de transfert, avec repr´esentation de la struc- struc-ture commune

BRAliBase I, le benchmark de r´ef´erence

Puis, à l’aide d’une heuristique gloutonne, il construit successivement des ensembles de palindromes tous compatibles entre eux, c’est-à-dire sans croisement ni chevauchement. Une correspondance prédite entre deux bases etl est contradictoire si, et seulement si, il existe une correspondance entre deux bases etl dans la structure de référence telle que k < i < l < j, c'est-à-dire cet ajout de l'appariement basesietj dans la structure de référence produit un pseudo-nœud. Enfin, un appariement prédit entre deux bases i et j est compatible si et seulement s'il n'est pas incohérent ou contradictoire.

La pr´ediction de g`enes ` a ARN

Les biais de composition en s´equence
La stabilit´e thermodynamique
L’homologie de s´equence et de structure
L’approche comparative, l’existence d’une structure conserv´ee

Dans la section 3.2.1, nous nous intéressons donc à l'analyse de différents biais dans la composition des séquences d'ARN non codants liés à la formation d'une structure. Cette analyse nous amène naturellement vers l’analyse de la stabilité des structures d’ARN non codants présentée dans la section 3.2.2. 3.7 – Répartition de la négation de l'énergie libre z-score des structures de 243 ARN non codants par rapport aux structures optimales de séquences aléatoires de même composition mononucléotidique.

Fig. 3.6 – R´esultats de BRAliBase I pr´esent´es par type d’approche en fonction de la sp´ecificit´e, en abscisse, et de la sensibilit´e, en ordonn´ee.

Evolution et enrichissement du logiciel caRNAc

L’existant

3.10 – Avancement de la prédiction d'une structure secondaire conservée entre deux séquences dans caRNAc. Filtrage des barres En fonction des points d'ancrage déterminés à l'étape précédente, les paires de barres pliantes sont répertoriées. En pratique cependant, la complexité spatiale de l'algorithme se réduit à l'hyperdiagonale de la matrice grâce à un examen des tiges incopiables et des points d'ancrage.

Fig. 3.10 – D´eroulement de la pr´ediction d’une structure secondaire conserv´ee entre deux s´equences dans caRNAc

Introduction des m´eta-s´equences

L'énergie associée à un méta-flux est définie comme la moyenne des énergies des bâtonnets individuels qu'il contient. L'énergie associée au pliage d'une méta-bâtonnet, ou au co-pliage de deux méta-bâtonnets, est égale à la somme des énergies des bâtonnets individuels repliés en même temps. Par conséquent, nous normalisons l’énergie associée à un méta-flux en prenant la moyenne des énergies des barres individuelles plutôt que leur somme.

Fig. 3.15 – Exemple d’une m´eta-tige form´ee de trois tiges individuelles

R´esultats exp´erimentaux

Validation sur BRAliBase I

Pour les ensembles de données qui sont en moyenne hautement conservés, les résultats ne changent guère. 3.10 – Résultats BRAliBase I sur les ARN de transfert et sur la RNAse P. a) Résultats sur les petites sous-unités ribosomales Méthode conservatrice. 3.11 - Résultats BRAliBase I pour les petites et grandes sous-unités d'ARN ribosomal.

Tab. 3.8 – Temps d’ex´ecution de caRNAc sur BRAliBase I.

Vers la pr´ediction de g`enes ` a ARN

Pour les familles d'ARN homologues non codants, le z-score moyen des structures prédit par caR-NAc est en moyenne inférieur à celui calculé sur des ensembles de séquences aléatoires. La RNAse a été entraînée à reconnaître les ARN non codants sur les alignements produits par ClustalW. Bien que plus de 90 % des positions dans cet alignement soient correctes, seul caRNAc prédit des séquences d’ARN homologues non codantes.

Fig. 3.17 – R´epartition du z-score moyen observ´e de l’´energie libre des structures pr´edites par caRNAc sur les familles d’ARN non-codants de Rfam (trait plein), et sur des familles de s´equences al´eatoires (trait discontinu).

L’alignement multiple de s´equences nucl´eiques

L’alignement multiple de s´equences codantes homologues

Parmi les méthodes de prédiction de séquences codantes présentées dans la section 2.2, certaines fournissent en sortie un alignement qui prend en compte les séquences d’acides aminés codées. Concernant les méthodes de prédiction par analyse comparative (section 2.3), la situation est différente car presque toutes ces méthodes fonctionnent sur des séquences déjà alignées et ne fournissent donc pas d'alignement de sortie. A notre connaissance, il n'existe finalement qu'un seul logiciel, Dialign2-2 [Mor99] qui réalise l'alignement d'un ensemble de séquences nucléiques en fonction des séquences d'acides aminés, es potentiels qu'elles peuvent coder.

L’alignement multiple de s´equences partageant une structure commune 114

Protea (section 2.4) peut être utilisé pour améliorer l’alignement de séquences codantes homologues, en particulier dans les séquences nucléaires divergentes. Enfin, l'alignement multiple des séquences d'acides aminés est transcrit de manière inverse pour obtenir un alignement multiple des séquences nucléiques de départ. La figure 4.4 montre un exemple d'alignement pour une famille de séquences homologues non codantes partageant une structure commune.

Fig. 4.1 – L’enchaˆınement des modules qui composent Magnolia.

Les r´esultats exp´erimentaux de Magnolia

L’annotation par g´enomique comparative

Le pipeline d’annotation

Tous les alignements obtenus sont ensuite rapportés à la séquence à annoter afin de détecter les régions conservées, c'est-à-dire les régions de la séquence à annoter pour lesquelles il existe plusieurs séquences similaires dans la banque. Comparer la séquence à annoter avec les séquences présentes dans la banque est la première étape du pipeline. Chaque ensemble de séquences doit donc comprendre un fragment de la séquence à annoter et un nombre suffisant de séquences similaires.

Fig. 4.9 – Sch´ema des ´etapes principales de Fasta pour deux s´equences A et B.

R´esultats exp´erimentaux du pipeline

Statistical prediction of single-stranded regions of RNA secondary structure and application to predict effective antisense target sites and beyond. Incorporation of chemical modification constraints into a dynamic programming algorithm for RNA secondary structure prediction. An iterated loop-matching approach for predicting RNA secondary structures with pseudo-nots.