• Nenhum resultado encontrado

La distance d’intervalles conservés en présence de

10.2 Exemplarisation et distance d’intervalles conservés

Dans cette section, nous abordons le problème du calcul de la distance d’intervalles conservés en pré- sence de gènes dupliqués en utilisant la stratégie d’exemplarisation. Nous démontrons que ce problème est NP-complet. Nous débutons cette section par la définition formelle de ce problème.

EXEMPLARCONSERVEDINTERVALDISTANCE (ECID) DONNÉES: Deux génomesGetH, et un entier positifk.

QUESTION: Existe-t-il deux exemplarisations G0 et H0 des génomes G et H telles que Dic(G0, H0)≤k?

Théorème 10.1. Le problème EXEMPLAR CONSERVED INTERVALDISTANCE est NP-complet.

Afin de prouver le Théorème 10.1, nous proposons une transformation polynomiale à partir du pro- blème NP-complet [53] MINIMUMSETCOVER. Étant donnés un entierk0et deux génomes exemplaires G0etH0, il est possible de calculer en temps polynomialDic(G0, H0)et de vérifier siDic(G0, H0) ≤k0 (cf. [9]). Par conséquent, le problème ECID appartient à la classe NP.

Nous allons prouver que ce problème est également NP-dur. Étant donnée une collectionCde sous- ensembles d’un ensemble fini E, une couverture deE est un sous-ensemble C0 ⊆ C tel que chaque élément deE appartient à au moins un membre deC0. Nous définissons formellement le problème de décision MINIMUMSETCOVERcomme suit.

MINIMUMSETCOVER

DONNÉES: Une collection C = {C1, C2. . . Cm} de sous-ensembles d’un ensemble fini E={e1, e2. . . en}, et un entier positifk0.

QUESTION:Ccontient-elle une couvertureC0deEtelle que|C0| ≤k0?

Par la suite, nous considérons que pour tout1 ≤i≤m, tout élémentedeCi ∈Cest également un élément deCj ∈ C pour au moins un1 ≤ j ≤ m donné tel quei 6= j. En effet, par définition, si un élément n’appartient qu’à un seul sous-ensemble, alors ce sous-ensemble fait obligatoirement partie de C0. Par la suite, nous prouverons que le problème ECID est NP-complet même dans le cas oùGest un génome exemplaire. Dans le reste de cette section, nous considérons que les génomes sont représentés par des séquences d’entiers signés. Nous commençons par détailler la construction des deux génomesG etH.

Soity=|E|+ 2si|E|est pair,y=|E|+ 1sinon. Soitzi = (y+ 2).(i−1)pour tout1≤i≤m+ 1.

À partir de(C, E), nous construisons, dans un premier temps, deux génomes exemplairesGetH1. Puis nous transformons le génomeH1pour qu’il ne soit plus exemplaire (une illustration est donnée en Figure 10.1).

Soient les sous-séquences composant les génomesGetH1 suivantes:

• pour tout1≤i≤m, nous construisons les séquences de gènesαi =zietβi =zi+1zi+2. . . zi+y+1;

• pour tout1≤i≤2|E|+m−1, nous construisons le gèneγi =zm+1+i;

CHAPITRE 10 — La distance d’intervalles conservés en présence de gènes dupliqués 131

• pour tout 1 ≤ i ≤ m, nous construisons le gène θi = zi+2 zi+4. . . zi+y zi+1 zi+3. . . zi+ y-1zi+y+1.

Nous définissons les génomesGetH1comme suit.

G=γ|E|+1γ|E|+2. . . γ|E|+m−1α1β1 . . . αmβm γ1γ|E|+mγ2 γ|E|+m+1. . . γ2|E|+m−1γ|E|

H11 θ1γ|E|+1α2 θ2 γ|E|+2. . . γ|E|+m−1αmθmγ|E|+mγ|E|+m+1 . . . γ2|E|+m−1

Nous transformons alors H1 en un génome non-exemplaire H comme suit: pour 1 ≤ i ≤ m et 1≤j≤ |E|, siej ∈Cialors le gèneγjest inséré entre lejeme` et lej+1`emegènes deθi. Nous appelons ECID-construction toute construction de ce type. Une illustration d’une ECID-construction est donnée en Figure 10.1. Intuitivement, pour 1 ≤ i ≤ met1 ≤ j ≤ |E|, la suite de gènes θi est une copie la suite de gènesβisans adjacence conservée (i.e. un mélange) et agrémenté de gènesγj. Clairement, notre construction peut être effectuée en temps polynomial. De plus, le résultat d’une telle construction est en effet une instance du problème ECID.

Figure 10.1 – Exemple d’une ECID-construction oùE ={e1, e2, e3}ety= 4.

Nous allons maintenant prouver que notre transformation est une réduction valide du problème MI-

NIMUMSET COVER vers le problème ECID. Notons, dans un premier temps que, par construction, il n’y a que|E|familles dupliquées de gènes dansGetH, à savoir les gènesγipour1≤i≤ |E|.

Lemme 10.1. Pour tout1≤i≤met tout1≤j ≤ |E|, les seuls intervalles conservés pouvant exister entreGet toute exemplarisation H0 deH sont des intervalles de la formei, zi+y+ 1] où tous les gènesγj dei, zi+y+ 1]dansH0ont été supprimés.

Preuve. Étant donnés un génomeGet une exemplarisationH0 d’un génomeH, par construction, pour tout1≤i≤m−1, le gèneα1est situé dansGaprès le gèneγ|E|+i. Tandis que, pour tout1≤i≤m−1, le gèneα1est situé dansH0avant le gèneγ|E|+i.

De plus, les gènesγ|E|+1|E|+2,. . . γ|E|+m−1 sont consécutifs dansG, tandis qu’ils ne le sont pas dansH0. Par conséquent, pour tout1 ≤i≤m−1et tout gèneδ, l’intervalle de la forme[γ|E|+i, δ]ou [δ, γ|E|+i]n’est pas un intervalle conservé.

Par construction, pour tout1 ≤ i ≤ m, la suite de gènes θi est constitué de l’ensemble des gènes de la suite βi ainsi que d’au moins un gène γj où 1 ≤ j ≤ |E|. De plus, pour tout 1 ≤ i ≤ m, la définition deθiassure que deux gènes adjacents dansβine le sont pas dansθi. Par conséquent, pour tout 1 ≤ i≤ m et tout gèneδ, l’intervalle de la forme [ψ, δ] ou [δ, ψ] oùψ est un gène deβi n’est pas un intervalle conservé.

132 CHAPITRE 10 — La distance d’intervalles conservés en présence de gènes dupliqués

Par construction, pour tout1≤i≤ |E|, le gèneαm est situé dansGavant tout gèneγi. Tandis que, pour tout1≤i≤ |E|, le gèneαmest situé dansH0après tout gèneγi. De plus, pour tout1≤i≤ |E|, le gèneγiest adjacent dansGà un gène de{γ|E|+j|m≤j≤ |E|+m−1}, tandis queγietγ|E|+j ne le sont pas dansH0. Par conséquent, pour tout1≤i≤ |E|et tout gèneδ, l’intervalle de la forme[γi, δ]

ou[δ, γi]n’est pas un intervalle conservé.

Finalement, pour tout1≤i≤met tout gèneδ, il existe dansH0 au moins un gène de{γ|E|+i|1≤ i≤m−1}appartenant à un intervalle de la forme[αi, δ]tel que le gèneδest situé après le gèneαi+1. Tandis que, pour tout1≤i≤m−1et tout1≤j ≤m, le gèneγ|E|+iest situé dansGavant tout gène αj. Par conséquent, pour tout1≤ i≤ |E|et tout gèneδ, l’intervalle de la forme[γi, δ] ou[δ, γi]n’est pas un intervalle conservé. La preuve du lemme en découle.

Lemme 10.2. SoitI = (C, E, k0)une instance du problème MINIMUMSETCOVERpour une collection C ={C1, C2. . . Cm}de sous-ensembles d’un ensemble finiE ={e1, e2. . . en}, etI0 = (G, H, k)une instance du problème ECID obtenue à partir d’une ECID-construction deI.

La collectionC contient une couvertureC0deEde taille inférieure ou égale àk0 si et seulement si il existe une exemplarisationH0du génomeHtelle queDic(G, H0)≤k=|G|.|G−1| −2(m−k0).

Preuve. (⇒)Supposons queC contient une couvertureC0 deE de taille inférieure ou égale àk0. Soit f : ei → {1,2, . . . m} une fonction qui, étant donné un élément ei de E, retourne l’indice du sous- ensemble couvrant cet élément dansC0. SoitI0 = (G, H, k)une instance du problème ECID obtenue à partir d’une ECID-construction deI. Nous recherchons une exemplarisationH0du génomeHtelle que Dic(G, H0)≤k. Nous définissons l’exemplarisationH0du génomeHcomme suit: pour chaqueej ∈E et pour toutp∈ {1,2, . . . , m}/{f(ej)}, supprimerγjdeθp.

Par construction, les seuls gènes dupliqués deH sont les gènesγ1, γ2, . . . , γ|E|. Par conséquent, le génomeH0est exemplaire puisque, pour tout1≤i≤ |E|, toutes les occurrences sauf une de la famille de gènesγi ont été supprimées. Il nous reste à prouver queDic(G, H0)≤k. Par définition, pour chaque Cj 6∈C0 et chaqueei ∈Cj,f(ei)6=jet par conséquent le gène dupliquéγi deθj a été supprimé. Étant donné que, pour tout1≤j≤m, tous les gènes dupliqués deθj ont été supprimés dansH0, il existe un intervalle conservé[αj, zj+y+ 1]entreGetH0.

En tout, il en existe au moinsm−k0. Par conséquent, il y a au moinsm−k0intervalles conservés entre les génomesGetH0. Donc, sachant que le nombre d’intervalles conservés entre un génomeGet lui-même est égal à |G|.|G−1|2 et que|G|=|H0|, on obtientDic(G, H0)≤ |G|.|G−1| −2(m−k0).

(⇐)Supposons maintenant que H0 est une exemplarisation de Htelle que Dic(G, H0) ≤k. Nous définissons l’ensemble C0 comme suit: pour tout1 ≤ j ≤ |E| et tout 1 ≤ p ≤ m, si γj ∈ θp alors f(ej) = p etCp ∈ C0. Nous allons maintenant prouver que C0 définit une couverture de E de taille inférieure ou égale àk0.

Le génome H0 étant une exemplarisation du génome H, il existe exactement une occurrence de chaque famille de gènes dansH0. Par conséquent, pour tout ei ∈ E,C0 contient au moins un élément deCcontenantei. L’ensembleC0est donc une couverture de l’ensembleE. Il nous reste à prouver que

|C0| ≤k0.

Par définition, puisqueDic(G, H0)≤ |G|.|G−1| −2(m−k0), il existe au moinsm−k0intervalles conservés entre G et H0. D’après le Lemme 10.1, pour tout 1 ≤ i ≤ m et tout 1 ≤ j ≤ |E|, les seuls intervalles conservés pouvant exister entreGet une exemplarisationH0 de Hsont les intervalles [αi, zi+y+ 1]tels que tous les gènesγjde[αi, zi+y+ 1]dansH0ont été supprimés. Par conséquent, il existe au moinsm−k0intervalles de ce type dansH0. Donc, il existe au plusk0intervalles[αi, zi+y+1]

CHAPITRE 10 — La distance d’intervalles conservés en présence de gènes dupliqués 133

contenant un gène γj où 1 ≤ i ≤ m et 1 ≤ j ≤ |E|. On obtient donc |C0| ≤ k0. Le lemme et, par conséquent, le Théorème 10.1 sont prouvés.