• Nenhum resultado encontrado

II. Proteínas: definição, funções e estrutura

3.2 COMPARAÇÃO DE SEQÜÊNCIAS E BUSCA EM BANCO DE DADOS

3.2.2 Similaridade e Homologia

A semelhança entre duas seqüências (nucleotídica ou protéica) de organismos diferentes pode ser explicada pela doutrina evolucionista de que todo o material genético contemporâneo possui um ancestral comum (Charles Darwin,1859). De acordo com essa doutrina, mutações entre as famílias das atuais espécies ocorreram durante o curso da evolução, que vem desde a origem do Universo (±12 bilhões de anos), seguido pela formação do Sistema Solar (±4,6 bilhões de anos) e pelos demais acontecimentos mostrados na Figura 3.2-1:

Figura 3.2-1 – Árvore da vida.

-1,0 -2,0 -0,1 Vertebrados/invertebrados -3,0 -4,0 Origem do Universo (-12) Formação do Sistema Solar (-4,6) Sistemas de auto-replicação

Procariotos/Eucariotos Plantas/Animais

Tempo (em bilhões de anos)

M.jann. E. coli T r i g o f u n g o I n s e t o P e i x e C a v a l o h u m a n o Baseada em [Pearson, 2001], p. 5.

Dessa forma, dado um alfabeto arbitrário de DNA ou de proteína, comumente ocorrem mutações locais de caracteres dentro do escopo desse alfabeto, a partir da seqüência de uma espécie ancestral, conforme exemplifica a Figura 3.2-2. Várias espécies podem resultar dessas transformações, que estão subdivididas em três categorias:

Inserção: é a inclusão de um ou mais caracteres na seqüência.

Exclusão: significa a retirada de um ou mais caracteres da seqüência.

Substituição: é a troca de um determinado caracter da seqüência por outro do mesmo alfabeto. Quanto ao DNA, observam-se dois tipos de substituição : a) transição, que é a troca de uma base purina por outra (exemplo A G), ou de uma pirimidina por outra (exemplo T C); e b) transversão, que é a troca de uma base purina por uma pirimidina (exemplo A C), e vice-versa (exemplo T G).

Inserções e exclusões são o inverso uma da outra: dadas duas seqüências, se a inserção de um caracter (ou mais) em uma delas resulta a outra, então, equivalentemente, a exclusão desses caracteres da seqüência resultante produzirá a primeira. Devido a essa reciprocidade, essas duas operações são usualmente chamadas de indel (insertion e

deletion). ABCD BCD BDD BD BBD ABC ABCB ABCC ABCC exclusão inserção substituição exclusão exclusão substituição exclusão inserção Espécie 1 Espécie 2 Espécie ancestral

Figura 3.2-2 – Esquema simplificado de possível evolução de duas espécies a partir de um ancestral comum.

Como visto na Figura 3.2-2 acima, pode-se dizer que a maioria das seqüências são similares a outras e, se conhecemos a função de uma, podemos transferir essa informação para outras seqüências relacionadas. Mais especificamente, a similaridade ou identidade de duas seqüências pode ser subdividida em analogia e homologia. A primeira, devido à evolução convergente, faz com que haja similaridade funcional e também das seqüências sem haver um ancestral comum. Já a homologia ocorre quando essas

seqüências compartilham um ancestral comum e apresentam as mesmas funções e estrutura tridimensional (enovelamento), quer sejam seqüências similares ou não. Isso acontece porque se novas funções moleculares são necessárias, a Natureza não as projeta, mas simplesmente as produz por evolução divergente de alguns genes, a partir desse ancestral comum, conforme afirmou F. Jacob (Evolution and tinkering. Science 196:1161-1166,1977) : “a natureza é um produtor e não um engenheiro com uma prancheta em branco”.

Embora os termos similaridade e homologia sejam usados de forma intercambiável por diversas pessoas, eles são formalmente distintos, pois o primeiro possui significado quantitativo, enquanto o segundo, qualitativo. Duas seqüências são muito similares ou pouco similares, e podem-se atribuir a elas escores, probabilidades ou valores estatísticos. No entanto, duas seqüências são apenas homólogas ou não. Além disso, seqüências similares também não são necessariamente homólogas: existem proteínas que possuem similaridade substancial e total divergência estrutural e funcional; ou o caso das seqüências análogas, citado logo acima. Contrariamente, seqüências homólogas não são necessariamente similares, como é o caso de proteínas que apresentam pouca similaridade, mas, mesmo assim, possuem funções e estruturas tridimensionais idênticas. [Pearson, 2001] Por isso, se as seqüências não são homólogas, nada se pode concluir a respeito de sua similaridade estrutural, mesmo que apresentem altos escores de similaridade.

Conforme mencionado no tópico anterior, um dos principais objetivos do alinhamento de seqüências, quer sejam de DNA ou de proteína, é possibilitar ao pesquisador determinar se duas seqüências apresentam similaridade suficiente, de tal modo que uma inferência de homologia seja justificada. [Pearson, 2001] E muitos dos algoritmos e métodos utilizados para proteínas também podem ser usados para seqüências de DNA.

Contudo, comparações de DNA geralmente são menos informativas que aquelas feitas com proteínas. Seqüências de DNA que não codificam proteínas ou RNA estruturais (por exemplo RNA ribossômico) divergem muito rapidamente e dificultam a detecção confiável de homologias para aquelas que divergiram há mais de 200 milhões de anos, o que, em contraste, não acontece mesmo com seqüências de proteína que também mudem muito rapidamente. Tipicamente comparações de seqüências de proteína

detectam outras que divergiram há 1 bilhão de anos graças à sua característica de manter regiões conservadas para também manter íntegra a função. E isso pode ser visto em um alinhamento resíduo a resíduo, no qual é freqüente que certas regiões de uma proteína, ou talvez alguns aminoácidos específicos, sejam mais altamente conservados que outros, o que pode sugerir que esses resíduos sejam cruciais para manter a função ou a estrutura da proteína. Então, se a seqüência biológica de interesse for codante, o método a escolher será sempre a comparação por proteína.

Por outro lado, podem existir posições que não sejam significantes para a função e que, todavia, mantêm-se conservadas por motivos históricos. [Baxevanis e Ouellette, 2001] Por isso, é preciso ter precaução quando são consideradas seqüências de espécies muito próximas, porque a similaridade pode muito mais refletir um fator histórico do que funcional, por exemplo a similaridade entre seqüências de camundongo (mouse) e ratazana (rat) homólogos, explicada apenas pelo fato de que essas séries não teriam tido tempo suficiente para divergirem de maneira evolutiva. Devido a isso, embora o alinhamento de seqüências possibilite alavancar novos conhecimentos, os autores enfatizam que todas as inferências devem ser experimentalmente testadas e não assumidas como corretas apenas com base nas análises computacionais atualmente disponíveis.

Um último ponto a ser observado quanto a homologia é sua natureza transitiva, conforme reforça [Pearson, 2001]. Se, por exemplo, inferiu-se homologia entre as seqüências A e B, entre B e C e, finalmente, entre C e D, então A e D também são homólogas, mesmo que não compartilhem significativa similaridade.