Caminho ´ Otimo e Proje¸ c˜ oes de Alinhamentos

2.5 M´ etodo de Carrillo-Lipman

2.5.3 Caminho ´ Otimo e Proje¸ c˜ oes de Alinhamentos

Antes de deduzirmos fórmulas para os limitantes dos custos que nos permitirão restringir a região de interesse no reticulado de programa¸cão dinâmica, notemos que as proje¸cões de alinhamentos na dire¸cão de um par de seqüências também possui uma interpreta¸cão geométrica.

Se s₁, . . . , s_ksão seqüências sobre um alfabeto Σ eAé um alinhamento livre de colunas em branco dessas seqüências, sabemos que aA está associado um único caminho orientado PAno reticulado de programa¸cão dinâmica e o caminho é uma representa¸cão geométrica do alinhamentoA. De maneira similar, fixadas duas seqüências, si e sj, com 1≤i < j≤k, a proje¸cão A_|i,j de Aé um alinhamento des_i e s_j e, no reticulado indexado apenas por essas seqüências, A|i,j pode ser representada por um caminho. Há, na realidade, uma conexão entre o caminho que representaA_|i,j eA: pela maneira como uma proje¸cãoA_|i,j é definida a partir de um alinhamento A, é simples ver que o caminho de A_|i,j é igual à proje¸cão do caminho deA na dire¸cão do planoi, j.

De fato, a proje¸cão A_|i,j de um alinhamento A na dire¸cão i, jé definida como o alinha-mento obtido de A pela remo¸cão de todas as linhas de A referentes às seqüências que não sejamsi ou sj e pela posterior remo¸cão de colunas em branco. Lembrando-nos de que cada caminho orientado pode ser representado como uma seqüência de vértices, temos que a pro-je¸cão de um vértice v = (v₁, . . . , v_i, . . . , v_j, . . . , v_k) na dire¸cão i, j é igual a v_|i,j = (v_i, v_j) e este vértice, por sua vez, pode ser identificado com o vértice (0, . . . ,0, vi,0, . . . ,0, vj,0, . . . ,0) do reticulado de programa¸cão dinâmica em que constam todas as seqüências, isto é, o ca-minho associado a uma proje¸cão do alinhamentoAna dire¸cão da seqüênciass_i es_j é igual

a proje¸c˜ao do caminho associado aAna dire¸c˜ao do plano relativo asi e asj.

Exemplo 2.1. Sejams₁ =AT,s₂=AC e s₃ =Ae consideremos o alinhamento A=



 AT AC A





entre essas três seqüências. O alinhamento A_|2,3 é igual a A_|2,3 = AC

. O caminho associado a A ´e (0,0,0) → (1,1,1) → (2,2,1) e o caminho associado a A_|2,3 ´e (0,0) → (1,1)→ (2,1), que pode ser identificado com o caminho (0,0,0)→ (0,1,1) → (0,2,1) no reticulado tridimensional des1,s2 e s3 (veja Figura 2.6).

A T

(2,2,1)

(0,0,0)

C (0,2,1)

Figura 2.6: Um caminho associado ao alinhamentoAdes₁,s₂es₃e a proje¸c˜ao do caminho na dire¸c˜ao do planos2 es3.

Sejam k≥2 um inteiro e s1, . . . , sk seqüências sobre um alfabeto Σ. Dada uma fun¸cão de pontua¸cão de caracteresc: (Σ⁰)²→Q≥0, fixemos a fun¸cão de pontua¸cão de coluna SP_c, dada pela Fórmula (2.1). Para simplificar a nota¸cão, freqüentemente deixaremos a fun¸cão c subentendida, escrevendo apenas SP.

Em nossa discussão, se se t são duas seqüências, c(s, t) é o custo de um alinhamento

otimo entre essas duas seqüências (i.e., o custo de alinhamento ótimo do par de seqüências).

Seja A um alinhamento qualquer de s1, . . . , sk e seja A^∗ um alinhamento ótimo dessas seqüências. Por defini¸cão, como A^∗ é ótimo, temos que SP(A^∗) ≤ SP(A) e, pela

Proposi-¸

c˜ao 2.1, isso significa que P

i<jc(A^∗_|i,j) ≤ P

i<jc(A_|i,j), onde A_|i,j denota a 2-proje¸cão do alinhamentoA na dire¸cão das seqüências si e sj.

Infelizmente, conforme ilustrado pela Figura 2.2, o fato deA^∗ ser ótimo não significa que c(A^∗_|i,j) =c(s_i, s_j) para todo par de seqüências s_i,s_j, uma vez que podemos ter c(A^∗_|i,j)>

c(si, sj). O m´aximo que se pode afirmar ´e quec(si, sj)≤c(A^∗_|i,j), pois nenhum alinhamento de s_i e s_j pode ter custo menor do que c(s_i, s_j).

Mas nem mesmo é poss´ıvel afirmar quec(A^∗_|i,j)≤c(A_|i,j), porque a desigualdade pode não valer para todo par de seqüências. É poss´ıvel que ocorra que c(A_|i,j) < c(A^∗_|i,j), isto

e, que a proje¸cão de A na dire¸cão de s_i e s_j seja melhor do que a proje¸cão de A^∗ nessa dire¸cão. Naturalmente, pela forma como a fun¸cão SP é definida, não é poss´ıvel queA seja

2.5 M´etodo de Carrillo-Lipman 63

melhor do que A^∗ em todas as dire¸cões, pois, nesse caso,A^∗ teria pontua¸cão maior do que a de A e, com isso, A^∗ não seria um alinhamento ótimo. Decorre disso o fato de que se alguma proje¸cão deA for melhor do que a proje¸cão deA^∗ naquela dire¸cão, então os custos das demais proje¸cões de A^∗ serão, no todo, menores do que os custos das proje¸cões de A, uma “compensa¸cão” devido à hipótese de que SP(A^∗)≤SP(A).

A discussão dos parágrafos acima significa, intuitivamente, que embora o custo de um alinhamento ótimo A^∗ em alguma proje¸cão possa não ser ótimo, este custo não pode estar

“muito longe” do custo de uma proje¸c˜ao de um alinhamentoAque seja melhor nessa dire¸c˜ao.

Sejamsetduas seqüências quaisquer. Denotamos por melhors,t(i, j) o custo do melhor alinhamento de se tque tenha (i, j) como corte, isto é,

melhor

s,t (i, j) = min{c(A) :A∈ A_s,t e A possui o corte (i, j)}, ondeA_s,t ´e o conjunto dos alinhamentos entre se t.

A idéia-chave do método de Carrillo-Lipman é estimar um limite superior digamos,U_i,j, para cada custo c(A^∗_|i,j) (sendo que, naturalmente, c(A^∗_|i,j) é desconhecido). Se o caminho P^∗ associado aA^∗ passa pelo vérticev^∗= (v^∗₁, . . . , v^∗_k), então a proje¸cãoP_|i,j^∗ deste caminho na dire¸cão de s_i e s_j passa pelo vértice (v^∗_i, v^∗_j).

Similarmente, seA é um alinhamento qualquer entre ask seqüências e o caminho de A passa porv= (v₁, . . . , v_k), sua proje¸cão na dire¸cão des_i es_j passa por (v_i, v_j).

Se soubermos que, dentre os caminhos que passam por (v_i, v_j), o de menor custo tiver custo maior do que o limite superior Ui,j estimado para c(A^∗_|i,j), então sabemos que a proje¸cãoP_|i,j^∗ não passa por (v_i, v_j), o que significa queP^∗ não passa por nenhum vértice do reticulado cujai-ésima coordenada sejavie cujaj-ésima coordenada sejavj. As entradas da matriz de programa¸cão dinâmica correspondentes a esses vértices não precisam, portanto, de serem calculadas para determinar o alinhamento ótimo.

A determina¸cão de melhor_s,t(i, j) é relativamente simples. SejaB um alinhamento ótimo de s e t que passe por (i, j). Por um argumento similar ao usado na Se¸cão 1.5.3 sobre a Propriedade das Subsolu¸cões Ótimas do Problema APS, podemos ver que seB = (B⁰ :B⁰⁰), com B⁰ =

s[1. .i]

t[1. .j]

e B⁰⁰ =

s[i+1. .m]

t[j+1. .n]

, então B⁰ é um alinhamento ótimo entres[1 . .i]

e t[1 . .j] e B⁰⁰ é um alinhamento ótimo entre o restante dessas seqüências⁸. Ademais, o custo de B⁰ pode ser facilmente calculado por uma chamada à fun¸cão Dist definida no Cap´ıtulo 1 e o custo de B⁰⁰ pode ser calculado por uma chamada a Dist-Rev. Se as,t e b_s,t são respectivamente as matrizes de programa¸cão dinâmica devolvidas pelas chamadas Dist(s, t) eDist-Rev(s, t), então melhor_s,t(i, j) pode ser calculado pela fórmula

melhor

s,t (i, j) =as,t[i, j] +bs,t[i, j], (2.3) para todoie j.

Os limites superiores Ui,j podem ser calculados também de maneira simples. Para as seqüênciass₁, . . . , s_k, sejamA^∗ um alinhamento ótimo eA um alinhamento qualquer. Pela defini¸cão de A^∗ temos que SP(A^∗) ≤ SP(A), de onde segue, pela Proposi¸cão 2.1, que P

i<jc(A^∗_|i,j)≤P

i<jc(A|i,j).

Da´ı, para duas seq¨uˆencias fixadass_p e s_q, com p < q, temos que c(A^∗_|p,q) + X

(i,j)6=(p,q) i<j

c(A^∗_|i,j) ≤ c(A_|p,q) + X

(i,j)6=(p,q) i<j

c(A_|i,j),

8Ou seja,B possui o corte (i, j).

de onde segue que

c(A^∗_|p,q) ≤ c(A_|p,q) + X

(i,j)6=(p,q) i<j

c(A_|i,j)− X

(i,j)6=(p,q) i<j

c(A^∗_|i,j).

Na desigualdade acima, o lado direito da inequa¸cão poderia ser usado como limitante superior para o custo de uma proje¸cão de A^∗, se não fosse pelo fato de que ele envolve os custos de outras proje¸cões deA^∗, que são desconhecidos.

Pode-se contornar essa dificuldade usando-se que c(si, sj) ≤ c(A^∗_|i,j), de onde decorre, por soma membro a membro de todas as possibilidades para a inequa¸c˜ao que

(i,j)6=(p,q) i<j

c(si, sj) ≤ X

(i,j)6=(p,q) i<j

c(A^∗_|i,j).

Da´ı,

− X

(i,j)6=(p,q) i<j

c(A^∗_|i,j) ≤ − X

(i,j)6=(p,q) i<j

c(s_i, s_j)

e ent˜ao

c(A^∗_|p,q) ≤ c(A|p,q) +





 X

(i,j)6=(p,q) i<j

c(A|i,j)− X

(i,j)6=(p,q) i<j

c(A^∗_|i,j)







≤ c(A_|p,q) +





 X

(i,j)6=(p,q) i<j

c(A_|i,j)− X

(i,j)6=(p,q) i<j

c(s_i, s_j)







. (2.4)

Definindo U = P

i<jc(A|i,j) e L = P

i<jc(si, sj), a desigualdade (2.4) pode ser reescrita como

c(A^∗_|p,q) ≤







c(A_|p,q) + X

(i,j)6=(p,q) i<j

c(A_|i,j)







−





 X

(i,j)6=(p,q) i<j

c(s_i, s_j) +c(s_p, s_q)−c(s_p, s_q)







= U−L+c(sp, sq).

Se definimosC =U−L, que é denominada aconstante de Carrillo-Lipman para a instância do problema, temos finalmente (após uma mudan¸ca de ´ındices) que

c(s_i, s_j)≤c(A^∗_|i,j)≤c(s_i, s_j) +C, (2.5) para todo par i, j, onde c(s_i, s_j) +C é o limitante superior desejado, que depende apenas do alinhamento A e dos custos de alinhamentos ótimos entre as seqüênciass₁, . . . , s_k.

A inequa¸c˜ao (2.5) nos diz que embora o custo de uma 2-proje¸c˜ao de um alinhamento

otimo não seja m´ınimo, ele está no intervalo entre o m´ınimo e m´ınimo mais uma constante, o que dá sentido à intui¸cão de que o custo das 2-proje¸cões não pode “estar muito longe” do m´ınimo.

2.5 M´etodo de Carrillo-Lipman 65

Para a obten¸cão do limiteCdas inequa¸cões, um alinhamentoAqualquer foi usado para calcular U. Este alinhamento de s1, . . . , sk pode ser proveniente da aplica¸cão de alguma heur´ıstica (como, por exemplo, os alinhamentos obtidos pelo programa Clustal⁹) ou de algum algoritmo de aproxima¸cão (como, por exemplo, os algoritmos vistos no Cap´ıtulo 4).

O alinhamento ótimo A^∗ obtido pelo método de Carrillo-Lipman pode ser interpretado nessas condi¸cões como um “refinamento” da solu¸cão Aobtida por algum outro método.

Na realidade, embora tenhamos usado um alinhamento para deduzir a inequa¸cão (2.5), tudo o que é usado a respeito dele é o seu custo e o alinhamento em si não é utilizado além do cálculo deU. Assim, o método de Carrillo-Lipman pode ser usado se dispusermos apenas de um limite superior U no custo de um alinhamento ótimo A^∗ (i.e., um limite U tal que SP(A^∗)≤U).

Apesar de qualquer limite superior poder ser usado no método de Carrillo-Lipman, limites superiores menores são preferidos, uma vez que a constante C fica menor e, assim, o limite superior ditado pela desigualdade (2.5) significa que mais vértices do reticulado de programa¸cão dinâmica podem ser descartados.

Mas então, dado um vértice vdo reticulado, como decidir se vé um vértice importante para calcular alinhamentos ótimos?

Se v = (v₁, . . . , v_i, . . . , v_j, . . . , v_k) é um vértice pertencente a um caminho associado a um alinhamento ótimo A^∗, então se i < j, para as seqüências si e sj, sabemos que c(si, sj)≤melhorsi,sj(vi, vj)≤c(A^∗_|i,j)≤c(si, sj) +C, onde a primeira desigualdade segue do fato de c(s_i, s_j) ser a melhor pontua¸cão poss´ıvel de alinhamentos de s_i e s_j, a segunda segue do fato de melhorsi,sj(vi, vj) ser a melhor pontua¸cão poss´ıvel dentre os alinhamentos de s_i e s_j que possuem o corte (v_i, v_j) e a terceira segue da inequa¸cão (2.5). Como o par (i, j) comi < jé genérico, temos que sevé um vértice no caminho ótimo entre as seqüências da entrada, vale que melhorsi,sj(vi, vj)≤c(si, sj) +C para todas as 2-proje¸cões dev.

Caso contr´ario, se houver um v´erticev para o qual existemiej tais quec(s_i, s_j) +C <

melhor_s_i_,s_j(v_i, v_j), então todos os caminhos que passam porvtêm proje¸cão na dire¸cão des_i e sj com custo maior do que o limite superior no custo da proje¸cão do alinhamento ótimo e, portanto, sabe-se de antemão que o vértice v não é corte de nenhum alinhamento ótimo e pode ser exclu´ıdo do cálculo de programa¸cão dinâmica.

Isso motiva a defini¸c˜ao dev´ertice relevante.

Defini¸cão 2.6 (Vértice Relevante). Um vértice v = (v₁, . . . , v_i, . . . , v_j, . . . , v_k) do reti-culado de programa¸cão dinâmica é dito relevante para calcular um alinhamento ótimo se, para todo pari, j com 1≤i < j≤ktivermos que melhorsi,sj(vi, vj)≤c(si, sj) +C.

Em resumo, apenas os vértices relevantes são aqueles que podem fazer parte de um caminho ótimo no reticulado.

Observe-se que não há problemas em restringir os cálculos aos vértices relevantes, uma vez que seA^∗for um alinhamento ótimo des₁, . . . , s_keAfor um alinhamento qualquer dessas seqüências com pontua¸cãoc(A) =U, então restringir o cálculo a um vértice relevantevque seja corte de um alinhamento A⁰ significa que melhor_s_i_,s_j(v_i, v_j) ≤c(A⁰_|i,j) ≤ c(s_i, s_j) +C para todoi < j, ou seja,

i<j

melhor

si,sj

(v_i, v_j)≤X

i<j

c(A⁰_|i,j)≤X

i<j

s(s_i, s_j) +X

i<j

9Dispon´ıvel emhttp://www.ebi.ac.uk/clustalw/.

isto ´e,

c(A^∗)≤C(A⁰)≤L+ k

C. (2.6)

Como aplicamos o método de Carrillo-Lipman para k≥2 seqüências, sabemos que ^k₂

≥1 e da´ı é poss´ıvel ver que o limite superior no custo dos alinhamentos que o método usa ao só verificar vértices relevantes é de pelo menos L+ 1C =L+ (U−L) =U, isto é, o limite superior conhecido no custoc(A^∗), o que significa que o método descarta com seguran¸ca os vértices do reticulado (de modo que se U for realmente um limite superior no custo de um alinhamento ótimo, então um alinhamento ótimo poderá ser encontrado).

Da inequa¸cão (2.6) é poss´ıvel ver que considerar a constante C muito grande significa que o método de Carrillo-Lipman torna-se menos restritivo em rela¸cão aos alinhamentos que ele considera para encontrar o ótimo e, portanto, o método potencialmente emprega mais tempo se C for maior.

De posse dos critérios para avaliar se uma entrada da matriz/vértice do reticulado é relevante para o cálculo do alinhamento ótimo, podemos dar alguns detalhes sobre um algoritmo que implemente o método.

No documento Alinhamento de Seqüências Biológicas (páginas 79-84)