Interpreta¸ c˜ ao Estat´ıstica de Similaridades

1.8 Variantes do Problema

1.8.4 Interpreta¸ c˜ ao Estat´ıstica de Similaridades

Antes de concluirmos este cap´ıtulo, vamos discutir brevemente as idéias por trás de ma-trizes de substitui¸cão como as matrizes PAM e as matrizes BLOSUM, que são constru´ıdas estatisticamente e são muito utilizadas para pontuar alinhamentos de seqüências de ami-noácidos. O método ilustrado é, todavia, geral e pode ser utilizado também para seqüências de bases.

No processo de evolu¸cão das espécies, as moléculas ficam sujeitas a eventos que as modificam, como muta¸cão de res´ıduos, ou sua remo¸cão ou inser¸cão. É de interesse estudar a freqüência com que esses eventos ocorrem. Por exemplo, podemos querer saber, para um determinado gene, qual é a probabilidade pAT de uma base A transformar-se em T ou, de uma maneira geral, a probabilidade p_σρ de um res´ıduoσ transformar-se em um res´ıduo ρ.

Note-se que para incluir o caso de inser¸cões e de remo¸cões de res´ıduos no estudo, é importante tratar de alguma maneira o caso em queσ ou ρseja um espa¸co.

Considerando um alinhamento como uma rela¸cão hipotética de eventos de evolu¸cão entre duas seqüências, podemos querer calcular, dadas as probabilidades de substitui¸cão de res´ıduos, a probabilidade de os eventos estipulados pelo alinhamento ocorrerem. Se supusermos que os eventos em posi¸cões diferentes dos alinhamentos sejam independentes¹⁴, então a probabilidade do alinhamento pode ser calculada como o produto das probabilidades das substitui¸cões dadas pelas colunas do alinhamento, isto é, se se t são seqüências sobre um alfabeto Σ e se Aé um alinhamento desetcom lcolunas, então a probabilidade deA

e dada por

Pr(A) =

j=1

p_A₁_[j]A₂_[j],

ondeA₁ denota a linha de Aque cont´em se A₂ denota a linha de A que cont´emt.

Com essa formula¸c˜ao fica claro que h´a pouco sentido em considerar alinhamentos em que haja espa¸cos emparelhados com espa¸cos (i.e., colunas em branco).

Mas muitas vezes o interesse maior é em saber como um alinhamento se compara a um emparelhamento “ao acaso” de s´ımbolos de s com s´ımbolos de t, a fim de saber se o alinhamento dado é significativo ou não do ponto de vista estat´ıstico. Isso pode ser feito comparando-se a probabilidadepσρà probabilidade de o par (σ, ρ) alinhar-se “ao acaso”. Se supusermos que a probabilidade deσocorrer na fam´ılia de seqüências em estudo éq_σ, então nosso interesse é em comparar as quantidadesp_σρ eq_σq_ρatravés darazão de probabilidades pσρ/(qσqρ). O modelo em que o par de caracteres (σ, ρ) ocorre com probabilidadeqσqρé às vezes chamadomodelo nulo (em inglês,null model).

A compara¸c˜ao entre a probabilidade Pr(A) do alinhamento e a probabilidade Pr_N(A) de os s´ımbolos deAemparelharem-se da maneira dada porA de acordo com o modelo nulo

14O que pode não ser uma hipótese muito realista, porque é poss´ıvel que algum evento evolutivo, digamos uma remo¸cão de res´ıduos, ocorra e afete uma seqüência de várias posi¸cões consecutivas e introduza uma lacuna grande na seqüência.

pode ser feita pelo c´alculo de Pr(A)/Pr_N(A) dado por Pr(A)

Pr_N(A) =

j=1

p_A₁_[j]A₂_[j]

q_A₁_[j]q_A₂_[j]. (1.10) A razão Pr(A)/Pr_N(A) pode potencialmente ser muito pequena por ser uma razão de produto de probabilidades (vide Cap´ıtulo 5) e, por isso, pode ser vantajoso trabalhar em termos de logaritmos de razão de probabilidades (em inglês, log-odd scores). Nesse caso, a equa¸cão fica

log Pr(A) Pr_N(A) =

j=1

log p_A₁_[j]A₂_[j]

q_A₁_[j]q_A₂_[j]. (1.11) Observe-se que cada termo do somatório da Equa¸cão (1.11) depende apenas dos s´ım-bolos A1[j] e A2[j], isto é, é uma fun¸cão c(A1[j], A2[j]) desses s´ımbolos e o logaritmo de razão de probabilidade, quando usado como matriz de pontua¸cão é exatamente a fun¸cão objetivo calculada pelo algoritmo de programa¸cão dinâmica para similaridade (versão de maximiza¸cão) e, nesse caso, o custo de uma lacuna, se a pontua¸cão de com s´ımbolos do alfabeto for uma constante, é linear. Modifica¸cões podem ser feitas ao modelo estat´ıstico para dar conta da situa¸cão de lacunas com custos afins [DEKM98].

Esse é, em linhas gerais, o procedimento usado para derivar os valores para uma fun¸cão de pontua¸cão de caracteres, como no caso das matrizes PAM e BLOSUM. Na realidade, matrizes como as matrizes PAM formam, de fato, uma fam´ılia de matrizes e cada mem-bro dessa fam´ılia é uma matriz de pontua¸cão adequada para comparar um determinado tipo de alinhamento. No caso das matrizes PAM, cada matriz é apropriada para pontuar alinhamentos de prote´ınas cujas seqüências estejam a uma certa distância evolutiva.

Cabe aqui dizer que PAM é uma sigla do inglês, que significaPoint Accepted Mutations ou Percent Accepted Mutations. Uma muta¸cão aceita é uma muta¸cão gerada entre duas seqüências e que não provocou a extin¸cão do ser que contém a seqüência descendente (sob o ponto de vista filogenético). A sigla PAM é usada para duas finalidades: para designar distâncias evolucionárias e para designar as matrizes de substitui¸cão de res´ıduos [DEKM98, Gus97, Mat01, SM97].

No caso de distâncias, 1 PAM é definida como a distância evolucionária entre duas seqüências de prote´ınas que causa uma média de mudan¸ca de 1% de res´ıduos entre as se-qüências. A matriz PAM 1 é uma matriz proposta por Dayhoff e colegas para comparar seqüências que estejam à distância de 1 PAM [SM97]. A matriz é constru´ıda por um pro-cesso parecido com o que expusemos, incorporando apenas algumas mudan¸cas¹⁵. A matriz 1 PAM define um processo estocástico que é uma cadeia de Markov (veja o Cap´ıtulo 5 para a defini¸cão de cadeia de Markov) e a i-ésima matriz PAM, a matriz PAM i, é defi-nida essencialmente como a i-ésima potência da matriz PAM 1 (na realidade, as matrizes de pontua¸cão são definidas com logaritmos de probabilidades e, por isso, não representam exatamente as matrizes de transi¸cão de cadeias de Markov; as matrizes de pontua¸cão são derivadas das matrizes de transi¸cão das cadeias de Markov). Maiores detalhes a respeito das matrizes PAM e das matrizes BLOSUM podem ser obtidos nas referências bibliogr´ afi-cas [GK99, DEKM98, SM97].

A t´ıtulo de curiosidade, mostramos a matriz PAM 250, que é adequada para detectar rela¸cões evolutivas entre seqüências distantes.

15Por exemplo, as matrizes PAM só contém pontua¸cões de substitui¸cão de aminoácidos, deixando a parte o tratamento de alinhar caracteres ao s´ımbolo .

1.8 Variantes do Problema 43

A R N D C Q E G H I L K M F P S T W Y V

A 2

R -2 6

N 0 0 2

D 0 -1 2 4

C -2 -4 -4 -5 12

Q 0 1 1 2 -5 4

E 0 -1 1 3 -5 2 4

G 1 -3 0 1 -3 -1 0 5

H -1 2 2 1 -3 3 1 -2 6

I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6

K -1 3 1 0 -5 1 0 -2 0 -2 -3 5

M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6

F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9

P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6

S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2

T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3

W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10

V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4

Figura 1.7: Matriz PAM 250. A matriz de pontua¸cão indica apenas a pontua¸cão entre os 20 aminoácidos. Como a matriz é simétrica, apenas parte dela está representada. Fonte:

http://www.infobiogen.fr/doc/tutoriel/SIMIL/similarite.html.

Cap´ıtulo 2

Alinhamentos de V´ arias Seq¨ uˆ encias

“One or two homologous sequences whisper. . . a full multiple alignment shouts out loud”

— Arthur Lesk

2.1 Introdu¸ c˜ ao

O Problema APS trata da compara¸cão de duas seqüências apenas. Embora esse seja um problema importante por si só e com várias aplica¸cões (de acordo com o que vimos no final do cap´ıtulo anterior), a necessidade de comparar seqüências (em particular, as biol´ ogi-cas) geralmente vai além da compara¸cão de só duas seqüências. Conforme mencionado no Cap´ıtulo 1, alinhamentos de seqüências são importantes por causa de sua conexão com v´ a-rios outros problemas em Biologia Computacional. Um dos problemas que recebe bastante aten¸cão na área é a constru¸cão de Arvores Filogen´´ eticas ou Evolucionárias [Gus97]. Nesse problema, faz-se o estudo de algumas espécies e a rela¸cão de ascendência e descendência entre as espécies é inferida e representada em um diagrama em forma de árvore (a árvore filogenética).

Atualmente, a disponibilidade em abundância de dados sobre moléculas (moléculas seqüenciadas de DNA ou de prote´ınas) oferece uma possibilidade adicional para o estudo de

arvores filogenéticas em rela¸cão aos critérios (por exemplo, morfológicos) usados anterior-mente. Os métodos mais usados atualmente para constru¸cão de árvores filogenéticas (que incluem os métodos de Máxima Parcimônia e Máxima Verossimilhan¸ca [DEKM98, Mat01]) usam como ponto de partida um alinhamento entre as seqüências em estudo para produzirem as árvores. Nessas árvores, as seqüências (que representam, cada, umaunidade taxonômica operacional ou OTU — do inglêsoperational taxonomic unit) rotulam as folhas das árvores.

Naturalmente, o interesse é maior nos casos não-triviais de constru¸cão de árvores com mais de duas espécies, isto é, alinhamentos entre mais de duas seqüências são necessários.

Outro uso importante dos alinhamentos é a cria¸cão de um modelo para uma fam´ılia de prote´ınas. A partir de um alinhamento entre moléculas de prote´ınas pertencentes a uma dada fam´ılia (por exemplo, à fam´ılia das globinas), pode-se criar um modelo estat´ıstico que seja um “resumo” das caracter´ısticas da fam´ılia, sob o aspecto de sua composi¸cão bioqu´ımica linear. Um desses modelos é chamado de Modelo de Markov de Estados Ocultos de Perfil das Seqüências (do inglês, profile hidden Markov model) [DEKM98]. Tratamos desses modelos no Cap´ıtulo 5.

As seqüências do alinhamento, por serem usadas para criar o perfil, são chamadas se-qüências de treinamento. Esses modelos são usados, dentre outras coisas, para verificar se uma dada prote´ına (de que se conhece pouco) pertence ou não à fam´ılia de prote´ınas usadas para a constru¸cão do modelo. Tais modelos são tão mais fiéis à fam´ılia¹ quanto maior o número de seqüências dessa fam´ılia forem usadas para a constru¸cão. É claro, pois, que os alinhamentos de várias seqüências são os mais desejados.

Conectado à aplica¸cão acima, alinhamentos de várias seqüências podem evidenciar ca-racter´ısticas de seqüências (por exemplo, regiões que permanecem conservadas durante o processo evolutivo) que a simples constru¸cão de todos alinhamentos de pares de seqüências não ressaltam. Esse é o motivo para a ilustrativa frase de Arthur Lesk que aparece na ep´ıgrafe deste cap´ıtulo [Gus97].

Como é de se esperar, um alinhamento de várias seqüências é uma generaliza¸cão natural do conceito de alinhamento de um par de seqüências. Este cap´ıtulo trata dessa generaliza¸cão e de caracter´ısticas próprias do caso geral do problema.

No documento Alinhamento de Seqüências Biológicas (páginas 59-64)