Algoritmo de Programa¸ c˜ ao Dinˆ amica

1.5 Algoritmos Fundamentais

1.5.4 Algoritmo de Programa¸ c˜ ao Dinˆ amica

Dada uma entrada para um problema que satisfa¸ca as duas propriedades acima, um al-goritmo baseado noparadigma de programa¸cão dinâmica opera resolvendo progressivamente subproblemas do problema original (geralmente, em ordem crescente de tamanho dos sub-problemas) e armazenando as solu¸cões de cada subproblema em uma tabela para um poss´ıvel uso posterior. A idéia é evitar que algum subproblema seja resolvido (desnecessariamente) mais de uma vez. Uma interpreta¸cão alternativa de um algoritmo de programa¸cão dinâmica pode ser como uma maneira de executar os passos de um algoritmo recursivo em uma ordem conveniente, usando uma tabela para manter as solu¸cões dos subproblemas já resolvidos por chamadas recursivas do algoritmo.

Por exemplo, no caso do Problema APS, um algoritmo de programa¸cão dinâmica pode ser interpretado como uma ordena¸cão adequada dos passos do Algoritmo Alinha-Rec de forma que os alinhamentos obtidos por cada chamada recursiva (como, por exemplo, Alinha-Rec(s[1 . . 3], t[1 . . 4])) sejam armazenados em uma tabela.

Ao longo de um algoritmo de programa¸cão dinâmica, tentam-se estender solu¸cões ótimas de subproblemas a uma solu¸cão ótima de um subproblema maior, fazendo uso da Propri-edade das Subsolu¸cões Ótimas, e prosseguindo até que uma solu¸cão ótima do problema original seja encontrada.

Um algoritmo de programa¸cão dinâmica para o Problema APS foi publicado em 1970 por Needleman e Wunsch [NW70], embora haja relatos de que suas idéias principais fizessem parte do folclore dos pesquisadores da época. O algoritmo, muito modificado desde então por vários pesquisadores, foi melhorado em rela¸cão à complexidade de tempo e de espa¸co [Hir75]

e também adaptado para outros problemas, sendo que uma das adapta¸cões mais importantes e populares é a desenvolvida por Smith e Waterman em 1981, para computar alinhamentos locais [SW81]. O algoritmo que veremos possui sua origem incerta e foi provavelmente descoberto independentemente por diversos pesquisadores [SM97].

1.5.4.1 Etapas do Algoritmo

Bem como vários algoritmos de programa¸cão dinâmica, o algoritmo de programa¸cão dinâmica para o Problema APS opera em duas etapas. Na primeira etapa, a distância entre as seqüências de entrada é calculada e, na segunda, um alinhamento ótimo (i.e., de pontua¸cão igual à distância entre as seqüências) é determinado. Vamos à descri¸cão de cada etapa. Para nossas considera¸cões, supomos que o alfabeto Σ e que a matriz de pontua¸cão c estejam fixados, como no enunciado do Problema APS.

1.5.4.1.1 Etapa 1: Cálculo da Distância Na primeira etapa, para seqüências s e t de comprimentos|s|=me |t|=n, uma matrizade dimensões (m+ 1)×(n+ 1), indexada por {0, . . . , m} e {0, . . . , n}, é preenchida com as pontua¸cões de alinhamentos ótimos de prefixos descom prefixos det, de forma que a posi¸cão (i, j) deacontenha a pontua¸cão de um alinhamento ótimo des[1 . .i] et[1 . .j], isto é, de modo quea[i, j] =d(s[1 . .i], t[1 . .j]), para 0≤i≤m e 0≤j ≤n. É claro que a distância d(s, t) =d(s[1 . .m], t[1 . .n]) está na posi¸cão a[m, n].

Conforme mencionamos, o algoritmo tenta “estender” solu¸c˜oes j´a calculadas para pro-blemas de maior tamanho (ele opera “de baixo para cima”).

Pela defini¸cão da matriz a, a linha i = 0 é tal que a[0, j] = d(s[1 . . 0], t[1 . .j]) = d(ε, t[1 . .j]), para 0≤j ≤n. Como os alinhamentos que consideramos são livres de colunas em branco, a única possibilidade de um alinhamento entre a seqüência vazia e t[1 . .j] é o alinhamento em que cada caractere de t[1 . .j] fica alinhado a um espa¸co. Naturalmente, como este alinhamento é único, ele é trivialmente um alinhamento ótimo e seu custo é a[0, j] =Pj

k=1c( , t[k]). Em outras palavras, temos quea[0, j] =a[0, j−1] +c( , t[j]), para todo j= 1, . . . , n e a[0,0] = 0. Essa ´e a forma de preenchimento da linha i= 0 da matriz.

O mesmo argumento vale para ver que a coluna j = 0 deve ser preenchida de acordo com a rela¸c˜ao de recorrˆencia a[i,0] =a[i−1,0] +c(s[i], ), para todoi= 1, . . . , m.

Naturalmente, como há apenas 3 possibilidades para a última coluna de um alinhamento e o Problema APS satisfaz à Propriedade das Subsolu¸cões Ótimas, sabemos que um alinha-mento ótimo entre s[1 . .i] et[1 . .j] pode ser obtido a partir de um alinhamento ótimo de s[1 . .i−1] e t[1 . .j] justaposto com ^s[i]

ou de um alinhamento ´otimo de s[1 . .i−1] e t[1 . .j−1] justaposto com ^s[i]_t[j]

ou de um alinhamento ´otimo des[1 . .i] e t[1 . .j−1] jus-taposto com _t[j]

, dependendo de qual possuir a menor pontua¸c˜ao. Em termos da matriz a, isso fica:

a[i, j] = min







a[i−1, j] +c(s[i], ), a[i−1, j−1] +c(s[i], t[j]),

a[i, j−1] +c( , t[j])







, (1.3)

parai >0 ej >0.

Para preenchermos a matrizacom o algoritmo, devemos escolher uma ordem conveniente para que o cálculo dea[i, j] seja feito apenas apósa[i−1, j],a[i−1, j−1] ea[i, j−1] estarem definidos. Uma possibilidade para isso é preencher a matrizalinha a linha, a partir da linha de ´ındice 0 e, para cadaifixado, em ordem de j crescente⁴.

Um algoritmo que implementa as id´eias acima ´e o AlgoritmoDist.

Como um comentário a parte, algumas implementa¸cões do Algoritmo Dist são feitas com a suposi¸cão de que existe uma constante g tal que c( , σ) = g para todo σ ∈ Σ. Em

4Outra possibilidade para preenchimento dea´e fazer os c´alculos coluna a coluna, a partir da coluna 0 e, parajfixado, fazer o preenchimento comivariando de 0 am.

1.5 Algoritmos Fundamentais 15

a[i−1, j−1] a[i−1, j]

a[i, j−1]^oo a[i, j]

ggOOOOOOOOOOOO OO

Figura 1.4: Para preencher a entradaa[i, j], o AlgoritmoDistprecisa de 3 outras entradas:

a[i−1, j],a[i−1, j−1] e a[i, j−1].

Algoritmo 1.2Dist(s, t)

Entrada: Duas seq¨uˆenciasse t, com|s|=me |t|=n.

Sa´ıda: Uma matriza= (a_ij) coma[i, j] =d(s[1 . .i], t[1 . .j]).

1: m← |s|;n← |t|;a[0,0]←0;

2: para j= 1, . . . , n fa¸ca

3: a[0, j]←a[0, j−1] +c( , t[j]);

4: para i= 1, . . . , m fa¸ca

5: a[i,0]←a[i−1,0] +c(s[i], );

6: paraj = 1, . . . , n fa¸ca

7: a[i, j]←a[i−1, j] +c(s[i], );

8: se a[i, j]> a[i−1, j−1] +c(s[i], t[j])ent˜ao

9: a[i, j]←a[i−1, j−1] +c(s[i], t[j]);

10: se a[i, j]> a[i, j−1] +c( , t[j])ent˜ao

11: a[i, j]←a[i, j−1] +c( , t[j]);

12: Devolvaa;

particular, nesse caso, a primeira linha de a pode ser preenchida com a[0, j] = g·j e, a primeira coluna, coma[i,0] =g·i. ´E comum referir-se a uma tal matriz de pontua¸c˜ao como matriz de custos lineares para lacunas.

1.5.4.1.2 Etapa 2: Cálculo de um Alinhamento Ótimo Até aqui, apenas o cálculo da pontua¸cão de um alinhamento ótimo (distância entre seqüências) foi efetuado. Terminado esse pré-processamento, podemos usar a tabelaaresultante da primeira etapa para construir os alinhamentos ótimos.

A constru¸cão de um alinhamento ótimo é feita observando-se qual (ou quais, se esti-vermos interessados em vários alinhamentos ótimos) das pontua¸cões dentre a[m −1, n], a[m−1, n−1] e a[m, n−1] produziu a pontua¸cão a[m, n] (correspondente à pontua¸cão

otima de todos os m caracteres de s alinhados a todos os n caracteres de t) e decidindo, portanto, qual é a última coluna de um alinhamento ótimo.

Desta forma, supondo-se quea[m⁰, n⁰] seja a posi¸cão dentre as três descritas que produziu a pontua¸cãoa[m, n], podemos obter as demais colunas do alinhamento repetindo o processo, usando (m⁰, n⁰) no lugar de (m, n) e repetir o procedimento de procura de que posi¸cão deu origem a m⁰ e n⁰ até que a posi¸cão (0,0) de a seja atingida, momento em que todas as colunas do alinhamento estarão determinadas.

O Algoritmo Alinhacont´em um resumo dessa discuss˜ao.

Algoritmo 1.3Alinha(a, s, t)

Entrada: Duas seq¨uˆenciasse te a matrizadevolvida por Dist(s, t).

Sa´ıda: Um alinhamento entre set de pontua¸c˜ao m´ınima.

1: m← |s|;n← |t|;

2: sem= 0 ent˜ao

3: Devolva os caracteres detalinhados a espa¸cos ems;

4: sen= 0 ent˜ao

5: Devolva os caracteres desalinhados a espa¸cos em t;

6: sea[m, n] =a[m−1, n] +c(s[m], ) ent˜ao

7: Devolva

Alinha(a, s[1 . .m−1], t) : ^s[m]

8: sea[m, n] =a[m−1, n−1] +c(s[m], t[n])ent˜ao

9: Devolva

Alinha(a, s[1 . .m−1], t[1 . .n−1]) : ^s[m]_t[n]

10: sea[m, n] =a[m, n−1] +c( , t[n]) ent˜ao

11: Devolva

Alinha(a, s, t[1 . .n−1]) : _t[n]

1.5.4.2 An´alise de Complexidade

Vamos analisar a complexidade de tempo e de espa¸co dos algoritmos vistos. Para evitar ambigüidade, convencionamos que, nesta se¸cão, a palavra espa¸co será utilizada para nos referirmos à quantidade de memória requerida para os algoritmos em vez de designar o caractere espa¸co ( ) como nas demais se¸cões.

O AlgoritmoDistinicializa a primeira linha da matrizaem tempoO(n) (linhas 2 e 3).

A linha 1 é executada em tempoO(1). Após a inicializa¸cão, os la¸cos encaixados emie em j (linhas 4–11) são executados. A parte mais interna desses la¸cos (i.e., cada execu¸cão das linhas 7–11) leva tempo constante e são realizadas um total de O(mn) itera¸cões. Ao longo do algoritmo, a linha 5 é executada um total de m vezes e, como cada execu¸cão dela toma tempo constante, a parcela de tempo total do algoritmo referente a sua execu¸cão é O(m).

Disso podemos concluir que o algoritmo leva tempoO(1)+O(n)+O(m)+O(mn) =O(mn).

O espa¸co usado pelo algoritmo⁵éO(1), uma vez que os recursos de memória empregados são, basicamente, as variáveis de controle do algoritmo (que são i,j,m en) e que ocupam espa¸coO(1), a matriz de pontua¸cãoc, que tem também tamanhoO(1) (pois o alfabeto está fixado) e a matriza, de tamanho (m+ 1)×(n+ 1), que faz parte da resposta devolvida por Dist.

O outro algoritmo, Alinha, opera em tempo e espa¸co lineares no tamanho das seqüˆ en-cias s e t. Para nos convencermos da complexidade de tempo, basta ver que cada coluna do alinhamento constru´ıdo como solu¸cão requer que, no máximo, 3 posi¸cões da matriz a sejam analisadas (vide linhas 6–11). Como cada um dos testes é feito em tempo constante, a determina¸cão de uma coluna qualquer do alinhamento final toma tempoO(1). Ademais, todos os alinhamentos que consideramos (i.e., livres de colunas em branco) possuem com-primento máximo dem+ncolunas. Da´ı, conclu´ımos que o AlgoritmoAlinhaleva tempo O(m+n).

Para o espa¸co usado pelo AlgoritmoAlinha, observemos que, excetuando-se a matriza

5Para a análise de espa¸co de nossos algoritmos, usamos a prática comum [Pap94] de não considerar na complexidade o espa¸co usado para resposta dos algoritmos (i.e., os algoritmos são modelados comomáquinas de Turing de Entrada e Sa´ıda).

1.5 Algoritmos Fundamentais 17

e o alinhamento produzido como resposta (que usa espa¸coO(m+n)), tudo o que ´e necess´ario

e armazenar as variáveis de controle do algoritmo que totalizam espa¸co O(1) e a pilha de recursão do algoritmo, que tem tamanhoO(m+n) (porque uma chamada recursiva é feita para determinar cada coluna do alinhamento). Isso justifica a afirma¸cão de o Algoritmo Alinhausar espa¸co O(m+n).

E importante ver que, apesar de ambos os Algoritmos´ Dist e Alinha terem comple-xidades individuais de espa¸co de O(1) e O(m+n), respectivamente, uma implementa¸cão natural para encontrar um alinhamento ótimo desetopera primeiro fazendo uma chamada a Dist, depois armazenandoa e, por fim, fazendo uma chamada aAlinha, de forma que este método usa espa¸co O(mn) como um todo.

Como um comentário adicional, embora tenhamos descrito algoritmos para o Problema APS usando espa¸co (total) quadrático, é poss´ıvel realizar todo o procedimento em espa¸co O(m+n), mantendo ainda a complexidade de tempo assintótica de O(mn), conforme ve-remos na Se¸cão 1.6.

No documento Alinhamento de Seqüências Biológicas (páginas 31-35)