• Nenhum resultado encontrado

La distance d’intervalles conservés en présence de

10.3 Couplage et distance d’intervalles conservés

CHAPITRE 10 — La distance d’intervalles conservés en présence de gènes dupliqués 133

contenant un gène γj où 1 ≤ i ≤ m et 1 ≤ j ≤ |E|. On obtient donc |C0| ≤ k0. Le lemme et, par conséquent, le Théorème 10.1 sont prouvés.

134 CHAPITRE 10 — La distance d’intervalles conservés en présence de gènes dupliqués

Dans les trois prochains lemmes, nous considérons une instance(U, k0,C)du problème MINIMUM

BINPACKINGet l’instance correspondante(G, H, k)du problème MCIM obtenue à l’aide de la construc- tion présentée précédemment.

Lemme 10.3. Étant donné un couplageM, un segment depgènes dupliqués parfaitement couplé dans Minduit plus d’intervalles conservés (i.e. p(p−1)2 ) qu’un segment de gènes dupliqués de longueurpqui n’est pas parfaitement couplé.

Preuve. Par définition, dansG, un segment S de pgènes dupliqués parfaitement couplé induit p(p−1)2 intervalles conservés. SiSn’est pas parfaitement couplé alorsSest couplé avec au moins deux segments de H. Supposons, sans perte de généralité, que, pour un p0 ∈ [1. . . p[ donné, les segments S[1, p0] etS[p0 + 1, p] de G sont parfaitement couplés dans H avec deux segments disjoints T etT0 (i.e. les segmentsT etT0ne partagent aucun gène et ne sont pas adjacents dansH). Une illustration de ce cas est donnée en Figure 10.3. Par définition, le couplage deSinduit p0(p20−1)+(p−p0)(p−p2 0−1) = 2p02+p22−2pp0−p intervalles conservés. Étant donné quep0< p, on a2pp0>2p02. On a donc, 2p02+p22−2pp0−p < p(p−1)2 ; ce qui prouve le lemme.

Figure 10.3 – Un segment de gènes dupliquésSdeGcouplé avec deux segments disjointsTetT0deH.

Lemme 10.4. Dic(G, H) ≥ k et pour tout couplage M entre les gènes de G et H, tout intervalle conservéI est soit l’intervalle [α, β], soit un intervalle I = [p, q]tel queS[p, q]est un segment unique- ment composé de gènes dupliqués.

Preuve. Par construction, le gèneα(resp.β) est le premier (resp. dernier) gène des deux génomesGet H. De plus, les génomesGetH étant équilibrés, ils sont composés du même ensemble de gènes. Par conséquent, l’intervalle[α, β]est un intervalle conservé. Par construction, pour tout1≤i < n+N, au moins un gènexapparaît dansGaprès le gèneAi. Tandis que, pour tout1 ≤i < n+N, tout gène x apparaît dansHavant le gèneAi.

De plus, il existe des gènes entre le gèneAn+N et le gèneβ dansGtandis que dansH ce n’est pas le cas. Par conséquent, pour tout1≤i < n+N et tout gèneγ, l’intervalle[Ai, γ]n’est pas un intervalle conservé. De plus, pour tout1≤i≤n+N, le gèneBk0+1est situé dansHavant le gèneAitandis qu’il est situé dansGaprès le gène Ai. Par conséquent, pour tout1 ≤i < n+N et tout gèneγ, l’intervalle [γ, Ai]n’est pas un intervalle conservé.

De façon similaire, par construction, pour tout1≤j < k0+ 1, au moins un gènexapparaît dansH après le gèneBj. Tandis que, pour tout1≤j < k0+ 1, tout gènexapparaît dansGavant le gèneBj. De plus, dansH il existe des gènes entre le gèneBk0+1 et le gèneβ tandis que dansGce n’est pas le cas. Donc, pour tout1≤j ≤k0+ 1et tout gèneγ, l’intervalle[Bj, γ]n’est pas un intervalle conservé.

De plus, pour tout1≤j≤k0+ 1, le gèneAn+N est situé dansHavant le gèneBj tandis qu’il est situé

CHAPITRE 10 — La distance d’intervalles conservés en présence de gènes dupliqués 135

dansGaprès le gèneBj. Par conséquent, pour tout 1 ≤ j ≤ k0 + 1et tout gèneγ, l’intervalle[γ, Bj] n’est pas un intervalle conservé.

On en déduit, que les seuls intervalles conservés pouvant exister sont des intervalles entre deux gènes x:[x,x]. De plus, pour tout1 ≤j ≤k0 + 1et1 ≤i < n+N, le gèneBj étant situé dansGaprès le gèneAn+N et le gèneAiétant situé dansHaprès le gèneBk0+1,I = [x,x]est un intervalle conservé si Ai 6∈IetBj 6∈I.

Par conséquent, dans tout couplageMentre les gènes deGetH, tout intervalle conservéIest soit de la forme[α, β], soit de la formeI = [p, q]tel queS[p, q]est un segment uniquement composé de gènes dupliqués. On en déduit donc, d’après le Lemme 10.3, qu’il y a au plus p(p−1)2 intervalles conservés pour chaque segment de gènes dupliqués de longueurp. Par conséquent, dans tout couplage, il existe au plus

s(u1)(s(u1)−1)

2 +s(u2)(s(u2 2)−1) +. . .+s(un)(s(u2 n)−1) =Pn i=1

s(ui).(s(ui)−1)

2 intervalles conservés entre deux gènesx. Donc, dans tout couplage, il existe au plus1 +Pn

i=1s(ui).(s(ui)−1)

2 intervalles conservés;

par conséquentDic(G, H)≥ |G|.(|G|−1)

2 + |H|.(|H2 |−1) −2qoùq = 1 +Pn i=1

s(ui).(s(ui)−1)

2 .

Lemme 10.5. Il existe une partition de U enk0ensembles disjoints U1, U2, . . . , Uk0 telle que pour tout 1≤i≤k0la somme des tailles des éléments appartenant àUiest inférieure ou égale àCsi et seulement siDic(G, H)≤k.

Preuve. (⇐)Supposons queDic(G, H)≤k. D’après le Lemme 10.4, nous savons queDic(G, H) =k, et que, quelque soit le couplage entre les gènes de GetH, tout intervalle conservé I est de la forme [α, β] ouI = [p, q] tel queS[p, q] est un segment composé uniquement de gènes dupliqués. De plus, si Dic(G, H) =kalors le nombre d’intervalles conservés doit être maximal (i.e.1 +Pn

i=1

s(ui).(s(ui)−1)

2 ).

Par conséquent, d’après le Lemme 10.3, pour tout1≤i≤n, le segment de gènes dupliquésu0ideG doit être couplé avec une séquence de gènesxconsécutifs deH. Plus précisément, pour tout1≤i≤n, il existe un1≤j≤k0tel que le segmentu0iest parfaitement couplé avec un sous-segment deUj0comme illustré en Figure 10.4.

Figure 10.4 – Instance du problème MCIM associée à l’instance du problème MINIMUMBINPACKING

avec k0 = 3,C = 8 etU = {u1, . . . , u6}où s(u1) = s(u5) = 5,s(u2) = s(u6) = 4,s(u3) = 3 et s(u4) = 2et le couplage correspondant à la partition deU suivante :U1 ={u1, u3},U2 ={u2, u6}et U3 ={u4, u5}.

Par conséquent, un tel couplage induit une partitionP de l’ensemble des séquences{u01, u02, . . . , u0n} en au plus k0 séquences disjointes U10, U20, . . . , Uk00. D’après la construction, pour tout 1 ≤ i ≤ k0

|Ui0|=C, doncP correspond à une solution de l’instance du problème MINIMUMBINPACKINGcorres- pondante.

(⇒) Supposons donnée une partition P de U enk0 ensembles disjointsU1, U2, . . . , Uk0 chacun de cardinalité au plusC. Nous construisons un couplageMentre les gènes deGetHcomme suit:

1. chaque gène non-dupliqué dansGest couplé à son unique copie dansHet

136 CHAPITRE 10 — La distance d’intervalles conservés en présence de gènes dupliqués

2. pour tout1≤j ≤k0et pour chaqueui ∈U, siui∈Ujalors la séquence de gènesxdeu0idansG est parfaitement couplée avec la première séquence de gènesxlibres (i.e. pas encore couplés) de Uj0 dansH.

Le couplage Métant construit d’après la partition P, nous pouvons affirmer que, pour tout 1 ≤ i ≤ n, le segment de gènes dupliqués u0i est couplé à un segment de gènes xde H. Par conséquent, pour tout1≤i≤n, le segment de gènes dupliquésu0ideGinduit s(ui).(s(u2 i)−1) intervalles conservés.

Donc, le couplageMinduit1 +Pn

i=1 s(ui).(s(ui)−1)

2 intervalles conservés (cf. preuve du Lemme 10.4).

On en déduit queDic(G, H,M) ≤ k, et donc que Dic(G, H) ≤ k. Le lemme, et par conséquent le Théorème10.2, sont prouvés.