An´ alise de Complexidade - M´ etodo de Carrillo-Lipman

2.5 M´ etodo de Carrillo-Lipman

2.5.5 An´ alise de Complexidade

Para simplificar as análises, vamos adotar como conven¸cão que todas as seqüências sendo alinhadas possuem tamanho igual a n. Os limites deduzidos aqui são facilmente adaptados se as seqüências não forem todas do mesmo tamanho.

11Estamos supondo que todos acessos `a estrutura de dados sejam feitos por meio das fun¸c˜oes dadas.

2.5 M´etodo de Carrillo-Lipman 69

Algoritmo 2.6Dist-CL(k, s₁, . . . , s_k, U)

Entrada: Seqüênciass₁, . . . , s_k, com k≥2, e um racionalU, com SP(s₁, . . . , s_k)≤U. Sa´ıda: A matrizacom ponteiros indicando os m´ınimos para cálculo de um caminho ótimo.

1: para todoi, j com 1≤i < j≤kfa¸ca

2: asi,sj ←Dist(si, sj);

3: b_s_i_,s_j ←Dist-Rev(s_i, s_j);

4: melhorsi,sj ←asi,sj +bsi,sj;

5: L←P

i<jc(si, sj) =P

i<jasi,sj[ni, nj];

6: C←U −L;

7: Q←novafila; Q←Q∪ {~0}; // A união é feita como inclusão na fila

8: enquantoQ6=∅ fa¸ca

9: v←in´ıcio(Q);

10: parab∈ {0,1}^k\ {~0} em ordem lexicogr´aficafa¸ca

11: se v+b≤~ne v+b´e relevante ent˜ao

12: sev+bj´a foi visto ent˜ao

13: // v+b visto significaa[v+b] inicializada

14: a[v+b]←min{a[v] + SP(b⊗s[v+b]), a[v+b]};

15: sen˜ao

16: //v+b foi atingido pela primeira vez ea[v+b] deve ser inicializada

17: a[v+b]←a[v] + SP(b⊗s[v+b]);

18: Q←Q∪ {v+b};

19: sen˜ao

20: Ignorev+b;

21: Devolvap

Embora o método de Carrillo-Lipman possa levar a uma redu¸cão de tempo para preen-cher a parte relevante da matriza, não é poss´ıvel fornecer garantias de que há sempre uma economia de tempo, já que o tempo depende do valor de U passado para o algoritmo (i.e., de quão “longe” o alinhamento A estiver de A^∗ em termos de custo) e, de acordo com a desigualdade (2.6), o algoritmo pode não conseguir descartar muitos vértices se a constante C ou se k forem grandes.

O Algoritmo Dist-CL calcula as matrizes melhorsi,sj para cada par de seq¨uˆencias da entrada. Cada matriz melhor_s_i_,s_j pode ser computada como a soma das matrizes a_s_i_,s_j e b_s_i_,s_j em tempo O(n²). Como existem ^k₂

pares de seqüências, o tempo total para este pré-processamento é ^k₂

O(n²) = O(k²n²). As outras inicializa¸c˜oes (c´alculo de L e de C) podem ser feitas em tempo total igual a O(k²).

O teste de relevância de uma entrada da matrizapode ser feito também em tempoO(k²), pois, fixado um vérticev, verifica-se, para cada par 1 ≤i < j≤ k, se melhor_s_i_,s_j(v_i, v_j)≤ s(si, sj)+C=asi,sj[n, n]+C. No pior caso, o algoritmo pode precisar visitar todos os (n+1)^k vértices e, para cada vérticev, calcular a entrada a[v]. Isso significa que, essencialmente, o AlgoritmoDist-CLexecuta os passos do AlgoritmoDist-AVS, fazendo um passo adicional de verificar a relevância de cada entrada da matriz. Logo, o tempo gasto pelo algoritmo

e O(k²n²) +O((n+ 1)^kk²2^k) +O((n+ 1)^kk²) =O((n+ 1)^kk²2^k), onde o primeiro termo corresponde ao pré-processamento, o segundo ao tempo de preencher todas as células da matriz ae o terceiro, ao teste de relevância das (n+ 1)^k entradas da matriz a.

Um alinhamento ótimo pode ser obtido facilmente se durante os cálculos de m´ınimo do Algoritmo Dist-CL forem mantidos ponteiros para as posi¸cões que resultaram nos valores m´ınimos. Pode-se determinar o alinhamento em tempo linear, como feito para o algoritmo básico de programa¸cão dinâmica para o Problema AVS, isto é, em tempo O(kl) =O(k(kn)) =O(k²n).

Finalmente, em rela¸cão ao espa¸co, o algoritmo pode preencher todas as entradas deae usar (como no caso básico de programa¸cão dinâmica), espa¸co O((n+ 1)^k) e mais uma vez o comentário a respeito de complexidade de espa¸co feito para o algoritmo básico é válido.

E interessante notar a semelhan¸´ ca de funcionamento entre o Algoritmo Dist-CL e o Algoritmo de Dijkstra para caminhos m´ınimos, incluindo a cole¸cão de nós mantida em forma de uma fila pelos algoritmos (no caso do Algoritmo de Dijkstra, a fila deve ser uma fila de prioridades para garantir o processamento dos vértices em ordem de seus rótulos).

Cap´ıtulo 3

Complexidade do Problema AVS

“This solution is gloriously non-deterministic.”

— E. W. Dijkstra (1930–2002)

3.1 Introdu¸ c˜ ao

Nos cap´ıtulos anteriores, nossa aten¸cão esteve principalmente voltada para o desenvol-vimento e análise de algoritmos para encontrar alinhamentos ótimos. Embora os algoritmos desenvolvidos tenham complexidade polinomial para qualquer número fixado de seqüências, eles tornam-se pouco práticos até mesmo para um pequeno número de seqüências (depen-dendo das instâncias a serem resolvidas), ainda que métodos para economia de espa¸co e de tempo (como o de Carrillo-Lipman) sejam usados [Fue97, GKS95].

Infelizmente, não se conhecem algoritmos ou técnicas que sirvam para resolver os Pro-blemas APS e AVS de maneira exata (isto é, que encontrem alinhamentos que minimizem suas respectivas fun¸cões objetivo) e em toda sua generalidade com complexidades de espa¸co e de tempo de pior caso assintoticamente menores do que as dos algoritmos que já vimos.

E claro que exce¸´ cão deve ser feita ao considerarmos versões mais restritas dos problemas, que são casos em que pode haver algoritmos que resolvam tais versões em tempo ou espa¸co menores do que os algoritmos mais gerais.

H´a ainda outra classe de algoritmos para os problemas de alinhamentos. Um exemplo de um algoritmo para o Problema APS que opera com complexidade de pior caso igual

a dos algoritmos de programa¸cão dinâmica, mas que pode requerer menos recursos para grande parte das instâncias é o algoritmo proposto em 1983 por Ukkonen para o problema de alinhar pares de seqüências em que a distância de edi¸cão é a fun¸cão objetivo. O algoritmo tem complexidade de tempo igual aO(d(s, t)·min(|s|,|t|)) e complexidade de espa¸co igual a O(d(s, t)²) para encontrar um alinhamento ótimo entre duas seqüênciasset. No pior caso, a distância entre duas seqüências de tamanho né Θ(n) e este algoritmo exibe também o comportamento quadrático de tempo e espa¸co do algoritmo básico de programa¸cão dinâmica para o Problema APS, embora ele possa ser melhor em situa¸cões em que as seqüências sejam

“próximas”. Se apenas a distância de edi¸cão entre as seqüências for desejada, a complexidade de espa¸co do Algoritmo de Ukkonen pode ser reduzida paraO(d(s, t)) [Ukk83, Ukk85].

A complexidade de tempo do algoritmo básico de programa¸cão dinâmica (inclusive no caso multidimensional) e a necessidade de encontrar rapidamente “bons” alinhamentos para

aplica¸cões práticas de Biologia levaram ao projeto e uso de algoritmos e heur´ısticas que não necessariamente encontram alinhamentos ótimos para todas instâncias do problema, mas que rodam em tempo “aceitável na prática” e que devolvem “respostas razoáveis”.

Cabe aqui reiterar o comentário de que a modelagem do problema de encontrar alinha-mentos não captura todos os aspectos biologicamente significativos (como, por exemplo, similaridades de estruturas secundárias de seqüências de RNA e muta¸cões compensatórias), sendo a modelagem matemática uma simplifica¸cão da situa¸cão encontrada na prática. Na realidade, até mesmo programas¹ que empregam várias heur´ısticas para obter as respostas parecem não satisfazer em vários casos às necessidades que surgem em Biologia e os alinha-mentos produzidos como resposta são geralmente inspecionados e modificados manualmente antes do uso. A expressão “respostas razoáveis” deve ser, portanto, interpretada de acordo [HSP00].

Toda a dificuldade em obter algoritmos rápidos para encontrar alinhamentos obviamente nos conduz à pergunta de se é poss´ıvel, de fato, desenvolver algoritmos que sejam rápidos (mais precisamente, de tempo de execu¸cão polinomial no tamanho da entrada) para o Problema AVS. Uma questão um pouco mais ambiciosa é descobrir não apenas se é ou não poss´ıvel projetar um algoritmo de tempo polinomial para o problema, mas de descobrir quais são os recursos de tempo necessários para um algoritmo qualquer que o resolva.

Embora não saibamos responder às perguntas acima de maneira direta (à semelhan¸ca de muitos outros casos, conforme exposto por Garey e Johnson [GJ79, Cap´ıtulo 1]), pode-se mostrar que para uma ampla claspode-se de instâncias, o Problema AVS é pelo menos tão dif´ıcil, em termos de complexidade de tempo, quanto outros problemas combinatórios, no sentido de que se houver um algoritmo que resolva o Problema AVS em tempo polinomial para qualquer entrada, então cada um dos problemas de uma grande classe, a classe dos Problemas NP, também admitirá um algoritmo de tempo polinomial.

O presente cap´ıtulo possui natureza diferente dos cap´ıtulos anteriores: enquanto lá es-tivemos preocupados com o desenvolvimento de algoritmos, aqui o foco é o problema de alinhamentos em si de uma maneira mais geral e abstrata, independente de quais são os algoritmos usados para resolvê-lo. Nosso objetivo é mostrar a rela¸cão entre o Problema AVS e os problemas mais dif´ıceis da classe NP de problemas de decisão, os problemas NP-completos.

Para o estudo da intratabilidade computacional de problemas, é conveniente fazer dis-tin¸cão entre os problemas que podem e os que não podem ser resolvidos por algoritmos de tempo polinomial. Dizemos que um algoritmo que usa tempo polinomial no tamanho de sua entrada é um algoritmo polinomial. Caso a complexidade de tempo de um algoritmo não possa ser limitada por um polinômio, o algoritmo é dito exponencial². Os problemas que admitem um algoritmo polinomial que os resolva são ditos problemas de solu¸cão eficiente ou que podem serresolvidos eficientemente. Caso um problema não admita um algoritmo polinomial, ele é dito um problema intratável. Nesse sentido, a polinomialidade de

solu-¸

c˜oes para um dado problema funciona como o limite para distinguir problemas “f´aceis” de problemas “dif´ıceis”.

Uma idéia central para estudar a complexidade de problemas é a idéia deredu¸cão. Intui-tivamente, um problema Π reduz-se a um problema Π⁰ se for poss´ıvel resolver o problema Π

1Como ´e o caso do Clustal W.

2E importante ressaltar que essa nomenclatura, apesar de tradicional, ´´ e incorreta, uma vez que se um algoritmo tiver complexidade de tempo superpolinomial, mas subexponencial (como é o caso da fun¸cão n^logⁿ=e^log²ⁿ=o(eⁿ)) ele será ainda assim chamado de exponencial.

3.1 Introdu¸c˜ao 73

usando-se algum algoritmo que resolva Π⁰, isto é, se for poss´ıvel “adaptar” um algoritmo que resolva o problema Π⁰ para resolver também o problema Π, de maneira que o problema Π possa ser observado como um caso particular do problema Π⁰, após uma “tradu¸cão” (que é a redu¸cão). Para efeito do estudo de complexidade dos problemas, queremos que as redu¸cões sejam também algoritmos polinomiais. Dizemos que uma redu¸cão cuja complexidade de tempo é limitada superiormente por um polinômio é umaredu¸cão polinomial.

Uma classe muito grande de problemas ocupa uma posi¸cão de destaque em Ciência da Computa¸cão, a classe dos já mencionados problemas NP-completos. Para esses problemas, não se conhecem algoritmos eficientes, mas também não se conhecem provas de que eles sejam intratáveis. De qualquer maneira, esses problemas compartilham a curiosa caracte-r´ıstica de que todos problemas NP-completos são redut´ıveis em tempo polinomial a todos outros problemas da classe, o que significa que se um desses problemas puder ser resolvido em tempo polinomial, então todos os demais problemas da classe também poderão e, portanto, em rela¸cão à intratabilidade, todos eles são “iguais”. Pelo motivo de um grande número de importantes problemas pertencer a esta classe, por terem todos eles essencialmente “a mesma” dificuldade (no sentido de intratabilidade) e por nenhum algoritmo polinomial ser conhecido para nenhum destes problemas (ainda que nenhuma prova de sua complexidade inerente seja conhecida), o máximo que se pode dizer a respeito de tais problemas é que eles são aparentemente intratáveis³ [GJ79].

A primeira demonstra¸cão de dificuldade (no sentido de NP-completude) do Problema AVS foi publicada em 1994 por Wang e Jiang [WJ94]. A demonstra¸cão apresentada naquele artigo, apesar de concisa, restringe-se ao caso de pontua¸cão SP em que a matriz de pontua¸cão não é uma métrica (a matriz atribui pontua¸cão não-nula a pares de caracteres iguais).

Em 2001, Bonizzoni e Vedova mostraram que o Problema AVS, em sua versão de de-cisão, é NP-completo também para uma matriz de pontua¸cão que satisfaz aos axiomas de métrica [BV01], que era uma questão em aberto até então. Em um artigo posterior [Jus01], Winfried Just mostrou que o problema de alinhar seqüências é NP-dif´ıcil para uma ampla classe de matrizes de pontua¸cão (que inclui as matrizes do artigo de Bonizzoni e Vedova).

No mesmo artigo, Just mostrou também que existe uma matriz de pontua¸cão para a qual o Problema AVS é MAXSNP-dif´ıcil. Essa matriz, no entanto, não é uma métrica (ela atribui pontua¸cão 0 a caracteres diferentes do alfabeto).

Uma questão em aberto sobre o Problema AVS diz respeito ao fato de o problema ser ou não MAXSNP-dif´ıcil para matrizes que sejam métricas. Na realidade, não se sabe se o Problema AVS é MAXSNP-dif´ıcil para matrizes de pontua¸cão que tenham elementos nulos na diagonal principal e diferentes de zero fora da diagonal, mesmo que a matriz não seja uma métrica [Jus01, Jus02].

Neste cap´ıtulo, apresentamos a demonstra¸cão de Wang e Jiang, que é simples e estabelece a rela¸cão do problema de alinhar seqüências com outro problema que envolve seqüências de caracteres (além de ter sido a primeira demonstra¸cão de complexidade do Problema AVS) e a linha geral das várias demonstra¸cões de complexidade do Problema AVS (e de versões mais restritas do problema) e aproximabilidade apresentadas por Just.

Para nossa discussão, supomos que o leitor esteja familiarizado com conceitos básicos de Teoria de Complexidade de Algoritmos. A nota¸cão adotada é padrão e pode ser encontrada em diversos livros-texto comuns sobre algoritmos como em [CLR90, Cap´ıtulo 36] ou [GJ79].

3Muitos pesquisadores acreditam que tais problemas necessitam, realmente, de algoritmos exponenciais para serem resolvidos.

No documento Alinhamento de Seqüências Biológicas (páginas 86-92)