1.8 Variantes do Problema
1.8.4 Interpreta¸ c˜ ao Estat´ıstica de Similaridades
Antes de concluirmos este cap´ıtulo, vamos discutir brevemente as id´eias por tr´as de ma-trizes de substitui¸c˜ao como as matrizes PAM e as matrizes BLOSUM, que s˜ao constru´ıdas estatisticamente e s˜ao muito utilizadas para pontuar alinhamentos de seq¨uˆencias de ami-no´acidos. O m´etodo ilustrado ´e, todavia, geral e pode ser utilizado tamb´em para seq¨uˆencias de bases.
No processo de evolu¸c˜ao das esp´ecies, as mol´eculas ficam sujeitas a eventos que as modificam, como muta¸c˜ao de res´ıduos, ou sua remo¸c˜ao ou inser¸c˜ao. ´E de interesse estudar a freq¨uˆencia com que esses eventos ocorrem. Por exemplo, podemos querer saber, para um determinado gene, qual ´e a probabilidade pAT de uma base A transformar-se em T ou, de uma maneira geral, a probabilidade pσρ de um res´ıduoσ transformar-se em um res´ıduo ρ.
Note-se que para incluir o caso de inser¸c˜oes e de remo¸c˜oes de res´ıduos no estudo, ´e importante tratar de alguma maneira o caso em queσ ou ρseja um espa¸co.
Considerando um alinhamento como uma rela¸c˜ao hipot´etica de eventos de evolu¸c˜ao entre duas seq¨uˆencias, podemos querer calcular, dadas as probabilidades de substitui¸c˜ao de res´ıduos, a probabilidade de os eventos estipulados pelo alinhamento ocorrerem. Se supusermos que os eventos em posi¸c˜oes diferentes dos alinhamentos sejam independentes14, ent˜ao a probabilidade do alinhamento pode ser calculada como o produto das probabilidades das substitui¸c˜oes dadas pelas colunas do alinhamento, isto ´e, se se t s˜ao seq¨uˆencias sobre um alfabeto Σ e se A´e um alinhamento desetcom lcolunas, ent˜ao a probabilidade deA
´
e dada por
Pr(A) =
l
Y
j=1
pA1[j]A2[j],
ondeA1 denota a linha de Aque cont´em se A2 denota a linha de A que cont´emt.
Com essa formula¸c˜ao fica claro que h´a pouco sentido em considerar alinhamentos em que haja espa¸cos emparelhados com espa¸cos (i.e., colunas em branco).
Mas muitas vezes o interesse maior ´e em saber como um alinhamento se compara a um emparelhamento “ao acaso” de s´ımbolos de s com s´ımbolos de t, a fim de saber se o alinhamento dado ´e significativo ou n˜ao do ponto de vista estat´ıstico. Isso pode ser feito comparando-se a probabilidadepσρ`a probabilidade de o par (σ, ρ) alinhar-se “ao acaso”. Se supusermos que a probabilidade deσocorrer na fam´ılia de seq¨uˆencias em estudo ´eqσ, ent˜ao nosso interesse ´e em comparar as quantidadespσρ eqσqρatrav´es daraz˜ao de probabilidades pσρ/(qσqρ). O modelo em que o par de caracteres (σ, ρ) ocorre com probabilidadeqσqρ´e `as vezes chamadomodelo nulo (em inglˆes,null model).
A compara¸c˜ao entre a probabilidade Pr(A) do alinhamento e a probabilidade PrN(A) de os s´ımbolos deAemparelharem-se da maneira dada porA de acordo com o modelo nulo
14O que pode n˜ao ser uma hip´otese muito realista, porque ´e poss´ıvel que algum evento evolutivo, digamos uma remo¸c˜ao de res´ıduos, ocorra e afete uma seq¨uˆencia de v´arias posi¸c˜oes consecutivas e introduza uma lacuna grande na seq¨uˆencia.
pode ser feita pelo c´alculo de Pr(A)/PrN(A) dado por Pr(A)
PrN(A) =
l
Y
j=1
pA1[j]A2[j]
qA1[j]qA2[j]. (1.10) A raz˜ao Pr(A)/PrN(A) pode potencialmente ser muito pequena por ser uma raz˜ao de produto de probabilidades (vide Cap´ıtulo 5) e, por isso, pode ser vantajoso trabalhar em termos de logaritmos de raz˜ao de probabilidades (em inglˆes, log-odd scores). Nesse caso, a equa¸c˜ao fica
log Pr(A) PrN(A) =
l
X
j=1
log pA1[j]A2[j]
qA1[j]qA2[j]. (1.11) Observe-se que cada termo do somat´orio da Equa¸c˜ao (1.11) depende apenas dos s´ım-bolos A1[j] e A2[j], isto ´e, ´e uma fun¸c˜ao c(A1[j], A2[j]) desses s´ımbolos e o logaritmo de raz˜ao de probabilidade, quando usado como matriz de pontua¸c˜ao ´e exatamente a fun¸c˜ao objetivo calculada pelo algoritmo de programa¸c˜ao dinˆamica para similaridade (vers˜ao de maximiza¸c˜ao) e, nesse caso, o custo de uma lacuna, se a pontua¸c˜ao de com s´ımbolos do alfabeto for uma constante, ´e linear. Modifica¸c˜oes podem ser feitas ao modelo estat´ıstico para dar conta da situa¸c˜ao de lacunas com custos afins [DEKM98].
Esse ´e, em linhas gerais, o procedimento usado para derivar os valores para uma fun¸c˜ao de pontua¸c˜ao de caracteres, como no caso das matrizes PAM e BLOSUM. Na realidade, matrizes como as matrizes PAM formam, de fato, uma fam´ılia de matrizes e cada mem-bro dessa fam´ılia ´e uma matriz de pontua¸c˜ao adequada para comparar um determinado tipo de alinhamento. No caso das matrizes PAM, cada matriz ´e apropriada para pontuar alinhamentos de prote´ınas cujas seq¨uˆencias estejam a uma certa distˆancia evolutiva.
Cabe aqui dizer que PAM ´e uma sigla do inglˆes, que significaPoint Accepted Mutations ou Percent Accepted Mutations. Uma muta¸c˜ao aceita ´e uma muta¸c˜ao gerada entre duas seq¨uˆencias e que n˜ao provocou a extin¸c˜ao do ser que cont´em a seq¨uˆencia descendente (sob o ponto de vista filogen´etico). A sigla PAM ´e usada para duas finalidades: para designar distˆancias evolucion´arias e para designar as matrizes de substitui¸c˜ao de res´ıduos [DEKM98, Gus97, Mat01, SM97].
No caso de distˆancias, 1 PAM ´e definida como a distˆancia evolucion´aria entre duas seq¨uˆencias de prote´ınas que causa uma m´edia de mudan¸ca de 1% de res´ıduos entre as se-q¨uˆencias. A matriz PAM 1 ´e uma matriz proposta por Dayhoff e colegas para comparar seq¨uˆencias que estejam `a distˆancia de 1 PAM [SM97]. A matriz ´e constru´ıda por um pro-cesso parecido com o que expusemos, incorporando apenas algumas mudan¸cas15. A matriz 1 PAM define um processo estoc´astico que ´e uma cadeia de Markov (veja o Cap´ıtulo 5 para a defini¸c˜ao de cadeia de Markov) e a i-´esima matriz PAM, a matriz PAM i, ´e defi-nida essencialmente como a i-´esima potˆencia da matriz PAM 1 (na realidade, as matrizes de pontua¸c˜ao s˜ao definidas com logaritmos de probabilidades e, por isso, n˜ao representam exatamente as matrizes de transi¸c˜ao de cadeias de Markov; as matrizes de pontua¸c˜ao s˜ao derivadas das matrizes de transi¸c˜ao das cadeias de Markov). Maiores detalhes a respeito das matrizes PAM e das matrizes BLOSUM podem ser obtidos nas referˆencias bibliogr´ afi-cas [GK99, DEKM98, SM97].
A t´ıtulo de curiosidade, mostramos a matriz PAM 250, que ´e adequada para detectar rela¸c˜oes evolutivas entre seq¨uˆencias distantes.
15Por exemplo, as matrizes PAM s´o cont´em pontua¸c˜oes de substitui¸c˜ao de amino´acidos, deixando a parte o tratamento de alinhar caracteres ao s´ımbolo .
1.8 Variantes do Problema 43
A R N D C Q E G H I L K M F P S T W Y V
A 2
R -2 6
N 0 0 2
D 0 -1 2 4
C -2 -4 -4 -5 12
Q 0 1 1 2 -5 4
E 0 -1 1 3 -5 2 4
G 1 -3 0 1 -3 -1 0 5
H -1 2 2 1 -3 3 1 -2 6
I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6
K -1 3 1 0 -5 1 0 -2 0 -2 -3 5
M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6
F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9
P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6
S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2
T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3
W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17
Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4
Figura 1.7: Matriz PAM 250. A matriz de pontua¸c˜ao indica apenas a pontua¸c˜ao entre os 20 amino´acidos. Como a matriz ´e sim´etrica, apenas parte dela est´a representada. Fonte:
http://www.infobiogen.fr/doc/tutoriel/SIMIL/similarite.html.
Cap´ıtulo 2
Alinhamentos de V´ arias Seq¨ uˆ encias
“One or two homologous sequences whisper. . . a full multiple alignment shouts out loud”
— Arthur Lesk
2.1 Introdu¸ c˜ ao
O Problema APS trata da compara¸c˜ao de duas seq¨uˆencias apenas. Embora esse seja um problema importante por si s´o e com v´arias aplica¸c˜oes (de acordo com o que vimos no final do cap´ıtulo anterior), a necessidade de comparar seq¨uˆencias (em particular, as biol´ ogi-cas) geralmente vai al´em da compara¸c˜ao de s´o duas seq¨uˆencias. Conforme mencionado no Cap´ıtulo 1, alinhamentos de seq¨uˆencias s˜ao importantes por causa de sua conex˜ao com v´ a-rios outros problemas em Biologia Computacional. Um dos problemas que recebe bastante aten¸c˜ao na ´area ´e a constru¸c˜ao de Arvores Filogen´´ eticas ou Evolucion´arias [Gus97]. Nesse problema, faz-se o estudo de algumas esp´ecies e a rela¸c˜ao de ascendˆencia e descendˆencia entre as esp´ecies ´e inferida e representada em um diagrama em forma de ´arvore (a ´arvore filogen´etica).
Atualmente, a disponibilidade em abundˆancia de dados sobre mol´eculas (mol´eculas seq¨uenciadas de DNA ou de prote´ınas) oferece uma possibilidade adicional para o estudo de
´
arvores filogen´eticas em rela¸c˜ao aos crit´erios (por exemplo, morfol´ogicos) usados anterior-mente. Os m´etodos mais usados atualmente para constru¸c˜ao de ´arvores filogen´eticas (que incluem os m´etodos de M´axima Parcimˆonia e M´axima Verossimilhan¸ca [DEKM98, Mat01]) usam como ponto de partida um alinhamento entre as seq¨uˆencias em estudo para produzirem as ´arvores. Nessas ´arvores, as seq¨uˆencias (que representam, cada, umaunidade taxonˆomica operacional ou OTU — do inglˆesoperational taxonomic unit) rotulam as folhas das ´arvores.
Naturalmente, o interesse ´e maior nos casos n˜ao-triviais de constru¸c˜ao de ´arvores com mais de duas esp´ecies, isto ´e, alinhamentos entre mais de duas seq¨uˆencias s˜ao necess´arios.
Outro uso importante dos alinhamentos ´e a cria¸c˜ao de um modelo para uma fam´ılia de prote´ınas. A partir de um alinhamento entre mol´eculas de prote´ınas pertencentes a uma dada fam´ılia (por exemplo, `a fam´ılia das globinas), pode-se criar um modelo estat´ıstico que seja um “resumo” das caracter´ısticas da fam´ılia, sob o aspecto de sua composi¸c˜ao bioqu´ımica linear. Um desses modelos ´e chamado de Modelo de Markov de Estados Ocultos de Perfil das Seq¨uˆencias (do inglˆes, profile hidden Markov model) [DEKM98]. Tratamos desses modelos no Cap´ıtulo 5.
As seq¨uˆencias do alinhamento, por serem usadas para criar o perfil, s˜ao chamadas se-q¨uˆencias de treinamento. Esses modelos s˜ao usados, dentre outras coisas, para verificar se uma dada prote´ına (de que se conhece pouco) pertence ou n˜ao `a fam´ılia de prote´ınas usadas para a constru¸c˜ao do modelo. Tais modelos s˜ao t˜ao mais fi´eis `a fam´ılia1 quanto maior o n´umero de seq¨uˆencias dessa fam´ılia forem usadas para a constru¸c˜ao. ´E claro, pois, que os alinhamentos de v´arias seq¨uˆencias s˜ao os mais desejados.
Conectado `a aplica¸c˜ao acima, alinhamentos de v´arias seq¨uˆencias podem evidenciar ca-racter´ısticas de seq¨uˆencias (por exemplo, regi˜oes que permanecem conservadas durante o processo evolutivo) que a simples constru¸c˜ao de todos alinhamentos de pares de seq¨uˆencias n˜ao ressaltam. Esse ´e o motivo para a ilustrativa frase de Arthur Lesk que aparece na ep´ıgrafe deste cap´ıtulo [Gus97].
Como ´e de se esperar, um alinhamento de v´arias seq¨uˆencias ´e uma generaliza¸c˜ao natural do conceito de alinhamento de um par de seq¨uˆencias. Este cap´ıtulo trata dessa generaliza¸c˜ao e de caracter´ısticas pr´oprias do caso geral do problema.