Resumo - capítulo 3 - Alinhamento de pares de sequências

(1)

Resumo - capítulo 3 - Alinhamento de pares de

sequências

Pedro Ivo Gomes de Faria

Sumário

1 Introdução 3

1.1 Definição de alinhamento de sequências . . . 3

1.1.1 Alinhamento global . . . 3

1.1.2 Alinhamento local. . . 3

1.2 Significância do alinhamento de sequências . . . 3

1.3 Visão geral dos métodos para alinhamento de sequências . . . 4

1.3.1 Alinhamento de pares de sequências . . . 4

1.3.2 Alinhamento múltiplo de sequências . . . 4

2 Métodos 5 2.1 Comparação de sequências por matrizes de pontos . . . 5

2.1.1 Comparação de sequências duas a duas . . . 5

2.1.2 Repetições de sequências . . . 5

2.1.3 Repetições de um único símbolo da sequência . . . 6

2.2 Algoritmo de programação dinâmica para o alinhamento de sequências . . . 6

2.2.1 Descrição do algoritmo . . . 6

2.2.2 Descrição formal do algoritmo de programação dinâmica 7 2.2.3 Programação dinâmica pode prover alinhamentos de sequências locais ou globais . . . 7

2.2.4 Um programa de alinhamento local sempre produz um alinhamento local e um programa de alinhamento global sempre produz um alinhamento global? . . . 8

2.2.5 Desenvolvimento adicional e uso do algoritmo de pro-gramação dinâmica para alinhamentos de sequências . 9 2.3 Uso de matrizes de pontuação e penalidades para lacunas em alinhamentos de sequências. . . 9

(2)

2.3.2 Matrizes de pontuação de ácidos nucleicos PAM . . . . 12 2.3.3 Penalidades para lacunas . . . 13 2.3.4 Combinações ótimas de matrizes de pontuação e

pe-nalidades para lacunas na descoberta de proteínas rela-cionadas . . . 15 2.4 Avaliando a significância de alinhamentos de sequência . . . . 15 2.4.1 Significância de alinhamentos globais . . . 15

2.4.2 Modelando um alinhamento de sequências de DNA

aleatórias . . . 16 2.4.3 Alinhamentos com lacunas . . . 18 2.4.4 A distribuição do valor extremo de Gumbel . . . 18 2.4.5 Determinação da significância da pontuação de um

al-inhamento . . . 20 2.4.6 A importância do tipo de matriz de pontuação para

análises estatísticas . . . 20 2.4.7 Significância de alinhamentos locais com lacunas . . . . 21 2.4.8 Métodos para calcular os parâmetros da distribuição

do valor extremo . . . 21 2.4.9 A significância estatística de pontuações de

alinhamen-tos individuais entre sequências e a significância de pontuações encontradas em uma busca em um banco de dados são calculados de forma diferente . . . 22 2.5 Alinhamento de sequências e estimação da distância evolutiva

por métodos estatísticos bayesianos . . . 23 2.5.1 Introdução à estatística bayesiana . . . 23 2.5.2 Aplicação da estatística bayesiana à análise de sequências 24 2.5.3 Distância evolutiva bayesiana . . . 24 2.5.4 Algoritmos bayesianos para alinhamento de sequências 25

(3)

1 Introdução

1.1 Definição de alinhamento de sequências

O alinhamento de sequências é a comparação de duas ou mais sequências buscando uma série de caracteres individuais ou padrões de caracteres que estejam na mesma ordem nas duas sequências. Caracteres idênticos ou sim-ilares são dispostos na mesma coluna, enquanto os não idênticos podem ser colocados na mesma coluna (casamento sem êxito) ou opostos a uma lacuna na outra sequência.

1.1.1 Alinhamento global

No alinhamento global é feita uma tentativa de alinhar toda a sequência, usando quantos caracteres forem possíveis, até ambos os terminais de cada sequência. Sequências similares e aproximadamente do mesmo tamanho são candidatas apropriadas para o alinhamento global.

1.1.2 Alinhamento local

No alinhamento local, regiões das sequências com a maior densidade de casa-mentos são alinhadas, gerando uma ou mais “ilhas” de casacasa-mentos ou sub-alinhamentos. O alinhamento para nas extremidades dessas regiões, e sua descoberta possui maior prioridade do que a extensão do alinhamento para incluir pares de aminoácidos vizinhos. É apropriado para sequências com regiões de similaridade descontínuas, que difiram em tamanho ou que com-partilhem um domínio ou região conservada.

1.2 Significância do alinhamento de sequências

O alinhamento de sequências é útil para descobrir informação funcional, es-trutural e evolucionária em sequências biológicas. Para tanto, é necessário descobrir o alinhamento “ótimo”. Sequências muito parecidas (similares) provavelmente têm a mesma função e, se forem de organismos diferentes, são definidas como homólogas caso tenha existido uma sequência que seja ancestral de ambas.

A similaridade de sequências pode ser um indício de várias possíveis re-lações de ancestralidade, inclusive a ausência de uma origem comum. Por exemplo, pensa-se que a evolução gênica ocorra após a duplicação em tan-dem de um mesmo gene, seguida por mutações nas cópias e evolução por vias separadas (especiação).

(4)

Outra complicação no rastreamento da origem de sequências similares é a de que genes individuais podem não compartilhar a mesma origem do resto do genoma em que estão. Eventos genéticos como simbioses e transduções in-duzidas por vírus podem causar transferência horizontal de material genético entre organismos não-relacionados (em tais casos, as histórias evolutivas do organismo e da sequência transferida serão diferentes).

1.3 Visão geral dos métodos para alinhamento de

se-quências

1.3.1 Alinhamento de pares de sequências

O alinhamento de duas sequências pode ser feito por análise de matrizes de pontos, programação dinâmica ou métodos de palavras ou de k-tuplas.

A análise de matrizes de pontos mostra possíveis alinhamentos como di-agonais na matriz, e pode facilmente revelar a presença de inserções, deleções ou repetições que são mais difíceis de encontrar por outros métodos mais au-tomatizados. Sua principal limitação é a de não mostrar um alinhamento de fato.

Na programação dinâmica, um alinhamento é gerado começando nos ter-minais das duas sequências e é estendido tentando casar todos os pares pos-síveis de caracteres entre as sequências (de acordo com algum esquema de pontuação). Isso gera uma matriz numérica, cujo maior conjunto de pontu-ações em sequência define um alinhamento ótimo. O método sempre encontra um alinhamento ótimo (algo provado matematicamente) para um dado con-junto de variáveis definidas pelo usuário (incluindo a matriz de pontuação e as penalidades para as lacunas).

Os métodos de palavras ou de k-tuplas (usados pelo BLAST ou pelo FASTA) procuram por pequenas regiões idênticas das sequências (palavras ou k-tuplas) e as unem em um alinhamento pelo método de programação dinâmica. Esses métodos são rápidos o suficiente para fazer uma busca num banco de dados inteiro pela sequência que melhor se alinhe com a consulta.

1.3.2 Alinhamento múltiplo de sequências

A partir de um alinhamento múltiplo de três ou mais sequências proteicas, os resíduos altamente conservados que definem domínios estruturais e fun-cionais em famílias de proteínas podem ser identificados. Apesar do grande valor de um alinhamento múltiplo, a sua obtenção é um problema difícil computacionalmente.

(5)

2 Métodos

2.1 Comparação de sequências por matrizes de pontos

Uma análise de uma matriz de pontos é basicamente um método de com-paração de duas sequências para procurar por possíveis alinhamentos entre as mesmas. O método também é usado para encontrar repetições diretas ou inversas (por exemplo, 50_{-GACTGC . . . GCAGTC-3}0_{) em sequências de}

proteínas e de DNA, além de predizer regiões no RNA que são autocom-plementares (e, portanto, possuem o potencial para formar uma estrutura secundária).

2.1.1 Comparação de sequências duas a duas

No método de matrizes de pontos para comparação de sequências, uma se-quência (A) é listada acima da primeira linha da matriz e a outra sese-quência (B) é listada ao lado da primeira coluna. Começando com o primeiro car-actere de B, move-se pela primeira linha colocando um ponto nas colunas cujo caractere correspondente em A seja igual ao caractere de B analisado (nesse caso, o primeiro). Faz-se o procedimento análogo com segundo car-actere de B (colocando os pontos na segunda linha da matriz) e assim por diante. Regiões de similaridade são indicadas por segmentos diagonais, en-quanto pontos isolados representam casamentos aleatórios que provavelmente não são significativos.

A detecção das regiões de casamentos pode ser melhorada filtrando os casamentos aleatórios, utilizando uma “janela deslizante” (de tamanho pré-definido). A janela compara posições adjacentes nas duas sequências ao mesmo tempo, imprimindo um ponto na página apenas se um número mín-imo de casamentos (a estringência) ocorrer.

Para sequências de DNA deve-se usar janelas extensas (de comprimento 7 ou 11) e estringência elevada (igual a 11 ou 15), pois como existem apenas 4 nucleotídeos é alto o número de casamentos aleatórios. Por outro lado, para proteínas costuma-se utilizar janelas curtas (de comprimento 1) e baixa estringência (igual a 1), pois existem basicamente 20 aminoácidos diferentes (o que reduz bastante os casamentos aleatórios).

2.1.2 Repetições de sequências

A análise de matrizes de pontos também pode servir para encontrar repetições diretas e inversas em sequências (incluindo as de cromossomos inteiros), anal-isando uma determinada sequência em oposição a ela mesma. Repetições

(6)

diretas também podem ser achadas fazendo alinhamento de sequências por métodos de programação dinâmica.

2.1.3 Repetições de um único símbolo da sequência

A análise de matrizes de pontos também pode revelar a presença de repetições de um único caractere, que são responsáveis por criar alinhamentos com pon-tuações artificialmente altas (um problema similar acontece nas regiões com baixa alternância de caracteres, chamadas regiões de baixa complexidade). Essas repetições ficam aparentes na matriz de pontos de uma proteína em oposição a ela mesma através de segmentos verticais de pontos que se fundem a padrões retangulares ou quadriculares.

2.2 Algoritmo de programação dinâmica para o

alin-hamento de sequências

O método de programação dinâmica compara todos os pares de caracteres de duas sequências e gera um alinhamento ótimo (com o maior número pos-sível casamentos entre caracteres idênticos ou relacionados), que provê infor-mações úteis aos biólogos para predições funcionais, estruturais e evolutivas.

Programas de alinhamentos globais são baseados no algoritmo de Needleman-Wunsch, enquanto os de alinhamentos locais são baseados no de Smith-Waterman. O alinhamento receberá uma pontuação, e existem métodos para calcular se ele é ou não estatisticamente significante.

Na hora de fazer um alinhamento de sequências, é importante ter em mente o objetivo da análise, pois esse irá influenciá-la. Várias decisões devem ser feitas, incluindo o tipo de programa, de alinhamento (local ou global), a matriz de pontuação e as penalidades para as lacunas.

2.2.1 Descrição do algoritmo

O alinhamento de duas sequências sem lacunas requer um algoritmo que faz um número de comparações proporcional ao quadrado do comprimento médio das sequências. Para alinhamentos que permitem lacunas em posições arbitrárias, métodos de comparação direta exigem um número astronômico de comparações (enquanto algoritmos de programação dinâmica ainda exigem proporcional ao produto do comprimento das sequências).

A qualidade do alinhamento entre duas sequências é calculada por um sistema de pontuação que favorece o casamento de caracteres idênticos ou relacionados e penaliza lacunas ou caracteres pouco relacionados. Essas pon-tuações são determinadas a partir das seguintes probabilidades:

(7)

1. de que um particular caractere seja encontrado em alinhamentos de sequências relacionadas;

2. de que um mesmo par esteja alinhado ao acaso nas sequências (pois alguns resíduos podem ser abundantes nas sequências e outros raros); 3. de que a inserção de uma lacuna de um ou mais resíduos em uma das

sequências (forçando o alinhamento de cada componente do par com outro caractere) seria uma melhor escolha.

A proporção das duas primeiras probabilidades é comumente fornecida por uma matriz de substituição (como a BLOSUM e a PAM), em que cada entrada dá a taxa (pontuação das chances) da frequência observada de substi-tuição de pares de resíduos de sequências relacionadas em relação à esperada por acaso. Essas taxas são transformadas em seus logaritmos (pontuação do logaritmo das chances), de modo que pontuações de pares diferentes pos-sam ser adicionadas para representar a chance global de um alinhamento ter acontecido ao acaso ou não.

2.2.2 Descrição formal do algoritmo de programação dinâmica

Sejam a = a1a2. . . ane b = b1b2. . . bnduas sequências, Sij = S(a1a2. . . ai, b1b2. . . bj)

a pontuação do alinhamento ótimo entre a1a2. . . aie b1b2. . . bj , s(aibj) a

pon-tuação por alinhar ai com bj, wx a penalidade para uma lacuna de

compri-mento x na sequência a e wy a penalidade para uma lacuna de comprimento

y na sequência b. Logo, temos que

Sij = max          Si−1,j−1+ s(aibj); max x≥1(Si−x,j− wx); max y≥1(Si,j−y− wy)

Notando que S11= s(a1b1), temos uma descrição quase completa do

algo-ritmo. Quando todas as posições da matriz (todos os Sij) forem calculados, a

pontuação do alinhamento ótimo entre a e b estará em Snn. Para determinar

qual é o alinhamento ótimo a partir da matriz S, uma segunda matriz T (a de rastreamento reverso) é usada. Cada entrada Tij da matriz armazena qual

entrada da matriz S contribuiu para a pontuação ótima armazenada em Sij. 2.2.3 Programação dinâmica pode prover alinhamentos de

sequên-cias locais ou globais

(8)

O método de programação dinâmica descrito acima fornece um alin-hamento global de sequências, como descrito por Needleman e Wunsch (1970). O algoritmo irá maximizar o número de casamentos entre as sequências por toda a extensão das duas.

Alinhamento local: algoritmo de Smith-Waterman

Uma modificação do algoritmo de Needleman-Wunsch pode encontrar al-inhamentos locais de sequências, que normalmente são mais significativos do que os globais por incluir padrões que estão conservados nas sequências. Sendo Hij = H(a1a2. . . ai, b1b2. . . bj) a pontuação do alinhamento ótimo

en-tre a1a2. . . ai e b1b2. . . bj, temos que

Hij = max              Hi−1,j−1+ s(aibj); max x≥1(Hi−x,j − wx); max y≥1(Hi,j−y− wy); 0

As principais diferenças para o cálculo da matriz de pontuação são: 1. o sistema deve incluir pontuações negativas para casamentos sem sucesso 2. quando um valor da matriz tornar-se negativo ele deve receber 0, o que

tem o efeito de terminar qualquer alinhamento até aquele ponto.

2.2.4 Um programa de alinhamento local sempre produz um alin-hamento local e um programa de alinalin-hamento global sempre produz um alinhamento global?

Tanto o algoritmo de Smith-Waterman pode devolver um alinhamento global quanto o algoritmo de Needleman-Wunsch pode devolver um alinhamento local, dependendo do esquema de pontuação utilizado.

Se usarmos uma matriz que atribua (em média) uma pontuação positiva para cada posição alinhada, combinada com uma penalidade para lacunas pequena o suficiente para permitir a extensão do alinhamento por regiões com poucos casamentos, teremos um alinhamento global. Inversamente, com uma pontuação (em média) negativa para casamentos sem sucesso e uma penalidade para lacunas grande o suficiente para prevenir a extensão do alinhamento por regiões com poucos casamentos, teremos um alinhamento local.

Para alinhamentos de sequências aleatórias, a pontuação de um alin-hamento global cresce proporcionalmente ao tamanho das sequências,

(9)

en-quanto a pontuação de um alinhamento local cresce proporcionalmente ao logaritmo do produto dos tamanhos da sequências.

2.2.5 Desenvolvimento adicional e uso do algoritmo de progra-mação dinâmica para alinhamentos de sequências

Uso de pontuações de distância para o alinhamento de sequências

Um método alternativo para a pontuação de alinhamentos baseia-se em quantas mudanças são necessárias para transformar uma sequência em outra. Usando essa medida, quanto maior for a distância entre as sequências, maior o tempo evolutivo passado desde que as sequências divergiram de seu ances-tral comum. Portanto, pontuações de distância fornecem um método mais natural biologicamente do que as pontuações de similaridade.

Melhora na complexidade de tempo e de espaço do algoritmo de programação dinâmica

Apesar de os algoritmos originais exigirem algo como número de passos entre n × m e n × m2 _{(onde n é o tamanho da sequência menor) e alocação de}

matrizes de tamanho n × m, várias melhorias já foram propostas. Algumas delas são:

1. decréscimo no número de passos do algoritmo

2. redução da complexidade de memória para uma função linear no com-primento das sequências

3. habilidade para encontrar alinhamentos quase ótimos e alinhar sequên-cias longas

4. habilidade para encontrar os alinhamentos alternativos de melhor pon-tuação que não alinhem as mesmas posições das sequências

2.3 Uso de matrizes de pontuação e penalidades para

lacunas em alinhamentos de sequências

2.3.1 Matrizes de substituição de aminoácidos

Saber quais são os tipos de substituição de aminoácidos e com que frequência ocorrem em um grande número de proteínas pode ajudar na predição de alinhamentos para qualquer conjunto de sequências proteicas. Se sequências proteicas relacionadas são similares, elas são fáceis de alinhar e, portanto, é possível determinar prontamente as mudanças ocorridas nos aminoácidos.

(10)

Em matrizes de substituição de aminoácidos, cada elemento possui uma pontuação que reflete com que frequência o aminoácido na linha estaria pareado com o da coluna num alinhamento de sequências proteicas rela-cionadas. Supõe-se que a probabilidade de transformar A em B é mesma de transformar B em A, pois o aminoácido ancestral na árvore filogenética normalmente não é conhecido.

Matrizes de substituição de aminoácidos de Dayhoff (ou ma-trizes PAM)

Essa família de matrizes lista a probabilidade de mudança de um aminoá-cido pra outro em sequências proteicas homólogas durante a evolução. Até o momento não existe outro tipo de matriz de pontuação baseada em princípios evolutivos sólidos como as matrizes PAM são. Apesar de serem originalmente construídas a partir de um conjunto de dados relativamente pequeno, as ma-trizes PAM ainda são ferramentas úteis para o alinhamento de sequências. A matriz P AM 1, por exemplo, fornece a probabilidade de substituição de um aminoácido por outro após um intervalo evolutivo de 1 PAM (≈ 10 milhões de anos).

Na construção das matrizes PAM, é feita a suposição de que a mudança de um aminoácido em um sítio particular é independente dos eventos mu-tacionais que ocorreram anteriormente no mesmo sítio. Portanto, substitu-ições de aminoácidos numa sequência proteica são vistos como uma cadeia de Markov, em que mudanças de um estado para outro não dependem do histórico do estado.

Devido a isso, a matriz PAM1 pode ser multiplicada por ela mesma N vezes (notação: P AM N = (P AM 1)N _{para N ≥ 1) para obtermos}

ma-trizes de transição que permitam comparar sequências com níveis cada vez mais baixos de similaridade. Por exemplo, as matrizes P AM 120, P AM 80 e

P AM 60 devem ser usadas para alinhar sequências que são 40%, 50% e 60%

similares, respectivamente.

Matrizes PAM normalmente são convertidas para outra forma, chamada de matriz do logaritmo das chances. A pontuação das chances é a razão entre a probabilidade de que a mudança represente uma variação evolutiva autêntica naquele sítio e a probabilidade de que a mudança tenha ocorrido devido à variação aleatória (sem significado biológico), sendo o logaritmo das chances igual ao logaritmo desse valor.

Escolhendo a melhor matriz PAM para detecção de similaridade entre sequências

Cada matriz PAM é apropriada para comparar proteínas que tenham certo grau de similaridade mas, inicialmente, a similaridade entre as

(11)

sequên-cias pode não ser conhecida. Apesar disso, a pontuação de um alinhamento local sem lacunas é máxima quando a matriz PAM correta (que corresponde ao grau de similaridade entre as sequências) é utilizada.

Além disso, a habilidade das matrizes PAM de discriminar alinhamentos locais reais (biologicamente significantes) de alinhamentos ao acaso (a

en-tropia relativa H) também varia (em geral - mantendo constantes os outros

fatores -, quanto maior o valor de H, maior a capacidade de discriminação). Para efetuar o seu cálculo, a pontuação para cada par de aminoácidos sij (em

unidades de log₂, chamadas bits) é multiplicada pela probabilidade de ocor-rência do par no conjunto de dados original (qij). Essa pontuação, somada

sobre todos os aminoácidos, produz o valor de H:

H = 20 X i=1 i X j=1 qij × sij

Análise do modelo de evolução proteica de Dayhoff

Várias ressalvas já foram feitas em relação às suposições que fundamen-tam as matrizes PAM. Apesar de supor que todas as posições são igual-mente mutáveis, é bem conhecido da genética molecular que existem “sítios quentes” de mutação, assim como variações na mutabilidade de diferentes sítios de aminoácidos nas proteínas. Além disso, quanto mais conservado é um aminoácido de proteínas similares em diferentes espécies, maior é a sua importância para a estrutura e função da proteína. Portanto, vários fatores influenciam tanto a localização quanto os tipo de mudança que ocorrem em aminoácidos.

Outra crítica é a análise circular que envolve a sua construção, já que os al-inhamentos são usados para pontuar mudanças nos aminoácidos (registradas na matriz), que por sua vez são usados para produzir novos alinhamentos. Apesar disso, nenhum método para contornar completamente o problema foi desenvolvido, considerando qualquer tipo de análise de sequências.

Uma última crítica baseia-se no fato de as matrizes terem sido construí-das a partir de um conjunto relativamente pequeno de proteínas intimamente relacionadas. Em resposta a isso, o conjunto de dados de Dayhoff foi aumen-tado para incluir o banco de dados de proteínas de 1991.

Matrizes de substituição de aminoácidos por blocos (BLOSUM)

As matrizes de substituição BLOSUM (em particular a BLOSU M 62) são amplamente utilizadas para pontuar alinhamentos de sequências prote-icas. Os valores da matriz são baseados em substituições de aminoácidos observadas num conjunto de ≈ 2000 padrões de aminoácidos conservados,

(12)

chamados de blocos. Esses blocos foram encontrados num banco de dados de sequências proteicas que representa mais de 500 famílias de proteínas, e agem como assinaturas dessas.

A contagem de mudanças nos aminoácidos por blocos pode, porém, levar a uma super-representação das substituições que ocorrem nos membros mais intimamente relacionados de cada família. Para reduzir essa contribuição das sequências mais parecidas, elas foram agrupadas como uma sequência só antes da atribuição da pontuação aos blocos alinhados. Em seguida, foi tirada a média das substituições nessas sequências agrupadas. Padrões que eram 60% idênticos foram agrupados para fazer uma matriz de substituição chamada BLOSUM60, os que eram 80% idênticos fundamentaram a BLO-SUM 80, e assim por diante. Como ocorre nas matrizes PAM, as BLOBLO-SUMs diferem no modo com que os pares de aminoácidos mais comuns são pon-tuados em relação aos menos comuns (e também diferem na habilidade de distinguir alinhamentos reais dos que ocorrem ao acaso).

Comparação das matrizes PAM e BLOSUM

O modelo PAM foi projetado para rastrear a origem evolutiva das pro-teínas, assumindo que as mutações ocorram por um processo de Markov. Ele foi baseado na predição das primeiras mudanças que ocorrem quando as proteínas divergem a partir de um ancestral comum.

Já o modelo BLOSUM foi projetado para encontrar domínios conserva-dos das proteínas, e não é baseado em um modelo evolutivo explícito. Ele foi construído a partir de famílias de proteínas relacionadas bioquimicamente, independentemente do grau de similaridade entre suas sequências.

Outras matrizes de pontuação para aminoácidos

Além das matrizes PAM e BLOSUM, várias outras matrizes de substi-tuição de aminoácidos foram produzidas, variando de uma comparação sim-ples de propriedades químicas de aminoácidos até uma análise complexa de substituições que ocorrem em domínios secundários de proteínas. Como a maioria delas alinha proteínas de acordo com características dos aminoácidos (e não de acordo com um modelo evolutivo), elas são mais apropriadas para descobrir relações funcionais e estruturais (e não para análise evolutiva).

2.3.2 Matrizes de pontuação de ácidos nucleicos PAM

Do mesmo modo como existem matrizes de pontuação para alinhamentos de proteínas, matrizes de pontuação para alinhamentos de sequências de DNA também foram desenvolvidas. Ela pode incorporar símbolos de DNA ambíguos (como S - de strong - para denominar as bases C ou G, que fazem

(13)

3 ligações de hidrogênio entre si) e informações de análises mutacionais, que revelam que transições (substituições entre as purinas A e G ou entre as pirimidinas C e T) são mais prováveis que transversões (substituições entre purinas e pirimidinas).

Como ocorre com as matrizes de aminoácidos, são produzidas matrizes do logaritmo das chances que representam a frequência de substituições esperada com distâncias evolutivas crescentes. Num alinhamento, a probabilidade sij

de obter um casamento entre os nucleotídeos i e j, dividida pela probabilidade de alinhar i e j ao acaso é dada por

sij = log(piMij/pipj)

Onde Mij é o valor na matriz de mutação e pi e pj são as frequências de

cada nucleotídeo (supostamente iguais a 0, 25). De modo análogo, matrizes que representem a distância evolutiva de n PAMs são deduzidas multipli-cando a matriz PAM1 por si mesma n vezes. A entropia relativa (capaci-dade de distinguir alinhamentos reais dos aleatórios) para cada matriz (em unidades de bit) pode ser calculada a partir da equação (onde os sij também

são expressos em unidades de bit)

H =X

i,j

pipjsij2sij

Como ocorre com as matrizes de pontuação para aminoácidos, a matriz usada deve ser a correspondente à porcentagem de similaridade entre as se-quências. Por exemplo, para sequências que são 21% diferentes, a matriz da distância de 25 PAMs deve ser usada. Já que não é possível saber qual a porcentagem de similaridade entre duas sequências antes de fazer um alin-hamento, é necessário fazer alguns alinhamentos como tentativas.

2.3.3 Penalidades para lacunas

As penalidades para lacunas são necessárias para obter o melhor alinhamento possível entre duas sequências. Uma penalidade para a abertura de qualquer lacuna (g) e uma penalidade para cada elemento da lacuna (r) são comumente utilizada, sendo a pontuação total wx dada pela função de penalidade afim

(onde x é o tamanho da lacuna)

wx = g + rx

Se a penalidade usada for muito grande em relação às pontuações da matriz de substituição, as lacunas nunca irão aparecer no alinhamento. Inversa-mente, se a penalidade for muito pequena em relação às pontuações da ma-triz, as lacunas irão aparecer em quase todo o alinhamento para maximizar o

(14)

número de casamentos. Felizmente, a maioria dos programas de alinhamento sugere penalidades apropriadas para uma dada matriz de pontuação na maio-ria das situações.

Ainda, se um alinhamento for formulado em termos de distâncias em vez de similaridades, uma melhor interpretação biológica das lacunas é pos-sível. Nesse caso, a distância é o número de mudanças necessárias para converter uma sequência em outra, e representa o número de mutações que ocorreu desde a separação dos genes durante a evolução (com uma substi-tuição fornecendo uma pontuação +1, sendo a soma da distância com a pontuação de similaridade sempre igual a 1). Essa formulação satisfaz a de-sigualdade triangular, no sentido de que se d(x, y) é a distância entre x e y e

a, b e c são três sequências quaisquer então

d(a, b) + d(b, c) ≥ d(a, c)

Penalidades para lacunas nos terminais dos alinhamentos

Lacunas nos terminais de um alinhamento podem receber a mesma pon-tuação das lacunas internas ou, de modo alternativo, não receber penalidades (para sequências de homologia desconhecida ou tamanhos diferentes). Se as lacunas terminais não receberem penalidades, elas podem utilizadas de modo excessivo pelo algoritmo para aumentar o número de casamentos de carac-teres internos.

Efeitos da variação de penalidades para lacunas divergentes em pontuações de alinhamentos locais

Vários efeitos podem ser observados a partir da variação e parâmetros para o alinhamento de sequências aleatórias de DNA e proteínas. Os princi-pais são:

1. o uso de penalidades (para lacunas ou casamentos sem sucesso) que são maiores do que a pontuação para casamentos irá produzir alinhamentos locais;

2. quando a penalidade para um casamento sem sucesso for maior ou igual ao dobro da pontuação para um casamento, a penalidade da lacuna torna-se o parâmetro decisivo para o alinhamento;

3. quando a penalidade para um casamento sem sucesso for menor que o dobro da pontuação para uma lacuna, muitos alinhamentos irão de-pender das pontuações para as penalidades (para lacunas e casamentos sem sucesso).

(15)

2.3.4 Combinações ótimas de matrizes de pontuação e penali-dades para lacunas na descoberta de proteínas relacionadas

Os principais pontos sobre combinações de parâmetros para a busca de pro-teínas homólogas são os seguintes:

1. algumas matrizes (como a BLOSUM62, construída a partir de famílias de proteínas relacionadas) são superiores às outras (como a PAM250, construída por extrapolação) na busca de proteínas relacionadas; 2. penalidades para as lacunas ajustadas para produzir alinhamentos

lo-cais são mais apropriadas;

3. para identificar sequências relacionadas, a significância do alinhamento deve ser estimada.

2.4 Avaliando a significância de alinhamentos de

se-quência

Um dos mais importantes avanços na análise de sequências foi o desenvolvi-mento de métodos para estimar a significância de um alinhadesenvolvi-mento de se-quência. Uma das principais aplicações dos testes de significância é ajudar a decidir se um dado alinhamento seria realmente esperado entre sequências relacionadas ou se seria achado com igual probabilidade entre sequências não relacionadas.

Inicialmente, a significância era estimada sob a suposição de que as pon-tuações dos alinhamentos seguiam uma distribuição normal. Porém, gerando sequências aleatoriamente por métodos Monte Carlo ou por embaralhamento de sequências, chegou-se à conclusão de que as pontuações dos alinhamentos seguiam a distribuição do valor extremo de Gumbel.

Além disso, a análise estatística das pontuações de alinhamentos locais avançou bem mais do que a de alinhamentos globais. Alinhamentos locais servem para revelar regiões com alta similaridade, que praticamente não existem em sequências não relacionadas ou aleatórias. Por outro lado, é possível achar sequências dessa natureza que possuam uma pontuação muito alta se alinhadas globalmente (isso dificulta a estimação da significância de alinhamentos globais).

2.4.1 Significância de alinhamentos globais

Em geral, programas de alinhamento global usam o algoritmo de Needleman-Wunsch e utilizam uma pontuação (em média) positiva para um par de

(16)

nu-cleotídeos ou aminoácidos alinhados. Consequentemente, a pontuação do al-inhamento de sequências aleatórias ou não relacionadas cresce proporcional-mente ao tamanho das sequências. Como pequenas mudanças no sistema de pontuação usado produzem um alinhamento diferente, estimar a significância de um alinhamento global não é uma tarefa fácil.

Dayhoff (1978) e Dayhoff et al. (1983) avaliaram pontuações de alin-hamentos dados pelo algoritmo de Needleman-Wunsch para sequências pro-teicas aleatórias e não relacionadas, utilizando a matriz PAM250 e penali-dade constante para as lacunas. A distribuição das pontuações resultantes foi compatível com uma normal. A partir disso, a significância do alinhamento entre duas sequências aparentemente relacionadas A e B foi determinada pela obtenção da média e do desvio padrão da pontuação de 100 alinhamentos de permutações de A com permutações de B. Se a pontuação entre A e B for significante, então a pontuação real deve ser pelo menos 3 a 5 desvios padrão maior do que a média das pontuações aleatórias.

Várias outras abordagens para o assunto foram tentadas por Waterman (1989), Chvátal e Sankoff (1975) e Lipman et al. (1984), e uma das con-clusões foi de que a presença de padrões locais conservados pode influenciar a pontuação em testes estatísticos, fazendo com que um alinhamento pareça ser mais significante do que é. Finalmente, um dos principais problemas com os métodos acima foi a utilização do modelo estatístico incorreto.

2.4.2 Modelando um alinhamento de sequências de DNA aleatórias

Para estimar o número de casamentos consecutivos entre sequências aleatórias, podemos modelar um alinhamento como lançamentos de moeda. Seja P (H) =

p a probabilidade do lançamento de uma moeda resultar em cara (H) e P (T ) = 1 − p a probabilidade do lançamento da mesma moeda resultar em

coroa (T ). O comprimento esperado da maior sequência de caras consecuti-vas (R) em n lançamentos é dado pela seguinte equação (demonstrada por Erdös e Rényi)

R = log_1/p(n)

Para usar o modelo, um alinhamento de duas sequências aleatórias a =

a1a2. . . an e b = b1b2. . . bn é convertido para uma série de caras e coroas. Se

ai = bi o lançamento resultante é cara (H), caso contrário é coroa (T ).

Com isso, o maior número de casamentos consecutivos (para sequências de mesmo tamanho n) é equivalente ao maior número de caras consecutivas em n lançamentos. Se duas sequências de tamanhos n e m forem alinhadas do mesmo modo, esse número passa a ser log_1/p(mn). Seja M uma variável aleatória que indique qual o comprimento da maior sequência de casamentos

(17)

consecutivos entre as sequências de tamanhos n e m. Logo, fórmulas mais precisas para a esperança e variância de M são:

E(M ) ≈ log_1/p(mn) + log_1/p(q) + γ log(e) − 1/2 ≈ [loge(Kmn)]/λ

V (M ) ≈ [πlog1/p(e)]2/6 + 1/12

onde γ ≈ 0, 577 é a constante de Euler-Mascheroni, q = 1 − p, K é uma constante que depende da composição das bases na sequência e λ = loge(1/p).

A estimativa para E(M) é fundamentalmente importante para o cálculo da significância estatística da pontuação de alinhamentos. Basicamente, ela afirma que conforme os comprimentos de sequências aleatórias ou não rela-cionadas aumentam, a média das maiores pontuações possíveis para alin-hamentos locais será proporcional ao logaritmo do produto dos comprimen-tos das sequências A estimativa para V(M) prediz variância constante para a pontuação desse tipo de alinhamento, algo confirmado por experimentos.

Utilizando alguns métodos de normalização, também é possível usar as equações acima para predizer o valor esperado E(S) da pontuação do alin-hamento entre duas sequências aleatórias de tamanhos m e n:

E(S) = [loge(Kmn)]/λ

Assim, estimar a significância estatística se reduz a calcular a probabili-dade de que a pontuação de um alinhamento entre sequências aleatórias ou não relacionadas seja maior que E(S). Para isso é necessário prever qual o número de regiões de casamentos cujas pontuações excedem E(S), algo que pode ser feito pela distribuição de Poisson (cuja média x é dada por E(S)), dada por Pn= e−xxn/n! para n ≥ 0. Para um grande número de ensaios cuja

probabilidade de sucesso é pequena, Pn é uma aproximação da probabilidade

de obter n sucessos.

Portanto, a probabilidade de que nenhum alinhamento (de um número grande de alinhamentos) tenha pontuação maior que x é P0 = e−x, e a

probabilidade de que pelo menos um deles tenha pontuação maior que x é

P (S > x) = 1 − P0 = 1 − e−x = 1 − e−E(S) = 1 − exp(−Kmne−λx)

A aproximação de Poisson fornece um modo conveniente de estimar os parâmetros K e λ a partir de pontuações de muitos alinhamentos entre se-quências aleatórias ou não relacionadas, a partir da fração de alinhamentos que tiverem uma pontuação menor que x.

(18)

2.4.3 Alinhamentos com lacunas

Um tipo similar de análise vale para alinhamentos de sequências que incluem lacunas. Smith et al. (1985) alinharam um grande número de sequências de DNA não relacionadas (DNA de vertebrados e DNA viral) de taman-hos diferentes (n e m), plotando um gráfico S (pontuação do alinhamento) × log_1/p(nm). O resultado foi uma reta da forma

Smédio = 2, 55(log1/p(mn)) − 8, 99

e desvio padrão constante σ = 1, 78. Esse resultado foi então usado para calcular quantos desvios padrão estavam entre a média prevista e a variância da pontuação dos alinhamentos locais para sequências não relacionadas. Se a pontuação real do alinhamento excedesse o Smédio previsto por vários desvios

padrão, então a pontuação deveria ser significante.

2.4.4 A distribuição do valor extremo de Gumbel

Quando duas sequências são alinhadas localmente de modo ótimo, a sig-nificância da pontuação pode ser testada com base na distribuição esper-ada das pontuações de alinhamentos de duas sequências aleatórias de iguais tamanhos e mesma composição das sequências alvo. As pontuações dos al-inhamentos dessas sequências aleatórias seguem uma distribuição chamada distribuição do valor extremo (ou de Gumbel), e não uma normal (como se pensava).

Essa distribuição aparece porque é obtida a partir das maiores pontuações (valores extremos) de um grande número de alinhamentos. A meta é avaliar qual a probabilidade de que uma pontuação entre sequências aleatórias ou não relacionadas alcance a pontuação entre duas sequências reais de inter-esse. Se essa probabilidade for baixa, o alinhamento é significante. A função densidade de probabilidade da distribuição do valor extremo é dada a seguir:

Yev = exp[−x − e−x]

Ela possui média µ = γ ≈ 0, 577 (a constante de Euler-Mascheroni) e variância σ2 _{= π}2_{/6 ≈ 1, 6. A probabilidade de que uma pontuação S seja}

menor que y é dada por

P (S < y) =

y

Z

−∞

(19)

= y Z −∞ exp[−x − e−x] dx = exp(−e−x)|y−∞

= exp(−e−y) − lim

t→−∞exp(−e −t ) = exp(−e−y) − 0 = exp(−e−y) e portanto temos P (S ≥ y) = 1 − P (S < y) = 1 − exp(−e−y)

Alterando a equação acima para acomodar valores extremos como sendo pontuações de alinhamentos de sequências, obtemos

P (S ≥ x) = 1 − exp(−e−λ(x−u))

onde u é a moda da distribuição e λ é um parâmetro de escala. Esses parâmetros podem ser estimados a partir da média e do desvio padrão da distribuição de Gumbel (método dos momentos), como segue:

λ = π/(σ√6) ≈ 1, 2828/σ

U = x − γ/λ ≈ x − 0, 45σ

Pontuações z podem ser calculadas para cada valor extremo x, onde z = (x − m)/σ é o número de desvios padrão a partir da média. A equação para

P (S ≥ x) pode ser reescrita para usá-las:

P (Z > z) = 1 − exp(−e−1,2858z−0,5772)

Para alinhamentos que não incluem lacunas, u e λ podem ser calculados a partir da matriz de pontuação, utilizando as equações

X

pipjesijλ = 1

u = (ln Kmn)/λ

onde pi e pj são as representações relativas dos resíduos i e j nas

sequên-cias, sij é a pontuação para o casamento de i com j, m e n são os tamanhos

das sequências e K é uma constante que pode ser calculada a partir de pi e

sij. Atualizando a equação para P (S ≥ x), obtemos

(20)

Para facilitar alguns cálculos, adotemos a normalização S0 = λS−ln Kmn, correspondente a u = 0 e λ = 1. Assim, temos que

P (S0 ≥ x) = 1 − exp(−e−x) Para x > 2, podem ser usadas as aproximações

P (S ≥ x) ≈ Kmne−λx

P (S0 ≥ x) ≈ e−x

2.4.5 Determinação da significância da pontuação de um alin-hamento

Suponhamos que duas sequências proteicas de aproximadamente 250 aminoá-cidos cada tenham sido alinhadas localmente usando a matriz PAM250 e uma penalidade alta para lacunas (para omiti-las do alinhamento), e o alin-hamento resultante (com pontuação de 75) é

FWLEVEGNSMTAPTG FWLDVQGDSMTAPAG

Altschul e Gish (1996) deram estimativas de K = 0, 09 e λ = 0, 229 para a matriz PAM250, uma distribuição típica para aminoácidos e alta penalidade para as lacunas. Daí, temos

S0 = λS − ln Kmn = 0, 229 × 75 − ln(0, 09 × 250 × 250) = 8, 55 bits

P (S0 ≥ 8, 55) = 1 − exp(−e−8,55) = 1, 9 × 10−4

Portanto, a probabilidade de que um alinhamento entre duas sequências aleatórias (utilizando os mesmos parâmetros) consiga uma pontuação maior ou igual a 75 é 1, 9 × 10−4_{, o que faz o alinhamento ser significante.}

2.4.6 A importância do tipo de matriz de pontuação para análises estatísticas

Usar uma matriz do logaritmo das chances (com as PAMs ou BLOSUMs) em unidades de bit simplifica a estimação da significância de um alinhamento. Tais matrizes também são úteis para encontrar alinhamentos locais porque ela inclui valores positivos e negativos. Outra importante característica é que essa é a forma ótima para avaliar a significância estatística das pontuações de alinhamentos.

(21)

Um dos parâmetros importantes das matrizes de pontuação é o valor esperado de um par médio de aminoácidos, dado pela seguinte equação:

E = 20 X i=1 i X j=1 pipjsij

onde sij é a pontuação do par de aminoácidos i e j e pie pj são suas taxas

de ocorrência. Esse valor deve ser negativo se a pontuação do alinhamento que use a matriz for usada para testes estatísticos, pois caso contrário (para qualquer par de sequências alinhadas) as pontuações irão aumentar (com o aumento do tamanho das sequências) mais rápido do que o logaritmo do tamanho das sequências. Os valores esperados das matrizes do logaritmo das chances como PAM, BLOSUM, JTT, JO93 e PET91 satisfazem esse requisito estatístico.

2.4.7 Significância de alinhamentos locais com lacunas

Para duas sequências aleatórias ou não relacionadas de tamanhos n e m, prediz-se que a pontuação (x) do alinhamento ótimo seja proporcional ao logaritmo do produto de seus tamanhos (x ≈ log2(nm)). Na comparação de

uma sequência (a consulta) de tamanho m a uma sequência de um banco de dados de tamanho n, m é constante e a pontuação prevista deve crescer lin-earmente com log(n). Essa relação foi encontrada em vários estudos sobre a distribuição da pontuação de alinhamentos locais ótimas que incluíam penal-idades para as lacunas. Portanto, os mesmos métodos estatísticos descritos para avaliar a significância de alinhamentos sem lacunas pode também ser usada para alinhamentos com lacunas.

2.4.8 Métodos para calcular os parâmetros da distribuição do valor extremo

Na análise de Altschul e Gish (1996), 10000 sequências aleatórias de aminoá-cidos de tamanhos variáveis foram alinhadas usando o algoritmo de Smith-Waterman e combinações apropriadas de matrizes de pontuação e penali-dades para as lacunas. As pontuações encontradas seguiram a mesma dis-tribuição do valor extremo previsto pela teoria estatística subjacente. Os valores de K e λ foram estimados para cada combinação pelo ajuste dos dados à distribuição prevista do valor extremo.

Porém, deve-se ter cuidado no uso desses parâmetros. Em primeiro lugar, eles foram gerados pelo alinhamento de sequências aleatórias supondo uma distribuição de aminoácidos em particular, o que pode não ser um modelo apropriado para algumas proteínas. Sem segundo lugar, a precisão de λ e

(22)

de K não pode ser estimada facilmente. Por último, para custos nas lacunas que resultam numa entropia H < 0, 15 o tamanho esperado do alinhamento ótimo é uma fração significante do tamanho das sequências, o que produz uma fonte de erros chamada de efeito terminal. Quando esse efeito ocorre, alinhamentos que começaram perto dos terminais das sequências podem não ser completados. Se o tamanho esperado não for subtraído do tamanho da sequência antes da estimação de λ, o parâmetro poderá ser superestimado.

Um dos programas comumente usados para busca por similaridade em banco de dados é o BLAST. Ele calcula a significância estatística das maiores pontuações entre sequências similares, mas de um modo um tanto quanto diferente. O BLAST usa os valores de K e λ encontrados a partir do alin-hamento de sequências aleatórias e a equação já apresentada

P (S ≥ x) = 1 − exp(−Kmne−λx)

, onde n e m são encurtados para compensar a incapacidade de alinhar os terminais das sequências.

2.4.9 A significância estatística de pontuações de alinhamentos individuais entre sequências e a significância de pontuações encontradas em uma busca em um banco de dados são cal-culados de forma diferente

Numa busca em um banco de dados utilizando uma sequência de consulta, uma nova comparação é feita para cada sequência no banco. Como exemplo, o BLAST calcula os parâmetros estatísticos baseados na matriz de pontuação e na composição das sequências. Os parâmetros são então usados para calcular a probabilidade de encontrar padrões conservados por alinhamento casual de sequências não relacionadas.

A probabilidade de não observar (num banco de dados de D sequências) alinhamentos com pontuações maiores do que s (sendo s a média das maiores pontuações possíveis para alinhamentos locais) é e−Ds, e a de observar pelo menos um com pontuação s é P ≈ 1 − e−Ds. Para os valores P de interesse (P < 0, 1), temos P ≈ Ds. Portanto, quanto maiores forem o banco de dados e a média das maiores pontuações possíveis, menor será a significância do alinhamento.

(23)

2.5 Alinhamento de sequências e estimação da

distân-cia evolutiva por métodos estatísticos bayesianos

2.5.1 Introdução à estatística bayesiana

Métodos estatísticos bayesianos diferem dos outros devido ao uso de prob-abilidades condicionais. Suponhamos que o evento A seja composto apenas pelos eventos disjuntos A1 e A2, ocorrendo algo análogo para o evento B e seus subeventos B1 e B2. Esses subeventos podem (por exemplo) cor-responder aos estados alélicos dos genes A e B. Temos então que P (B) =

P (B1) + P (B2) = 1 e P (A) = P (A1) + P (A2) = 1.

Suponhamos que P (B1) = 0, 3 (o que implica P (B2) = 1−P (B1) = 0, 7),

P (A1|B1) = 0, 8, P (A2|B2) = 0, 7, e desejamos saber as probabilidades

conjuntas de todas as combinações de subeventos de A com subeventos de B. Primeiro notemos que P (A1|B1) + P (A2|B1) = 1 (pois B1 = (A1 ∩

B1) ∪ (A2 ∩ B1) e os eventos A1 ∩ B1 e A2 ∩ B1 são disjuntos) e portanto P (A2|B1) = 1 − 0, 8 = 0, 2. Analogamente, P (A1|B2) = 1 − 0, 7 = 0, 3 . As

probabilidades restantes podem ser calculadas pelo teorema de Bayes (válido para quaisquer eventos A1 e B1), dado a seguir:

P (A1 ∩ B1) = P (B1|A1)P (A1) = P (A1|B1)P (B1)

Pelo teorema, temos que P (A1 ∩ B1) = P (B1)P (A1|B1) = 0, 3.0, 8 = 0, 24 e P (A2 ∩ B2) = P (B2)P (A2|B2) = 0, 7.0, 7 = 0, 49. As outras duas probabilidades conjuntas podem ser calculadas por subtração, ou seja:

P (A2 ∩ B1) = P (B1) − P (A1 ∩ B1) = 0, 3 − 0, 24 = 0, 06 e P (A1 ∩ B2) = P (B2) − P (A2 ∩ B2) = 0, 7 − 0, 49 = 0, 21. O resultado final está na tabela

em seguida.

A1 A2

B1 0,24 0,06 0,3 B2 0.21 0,49 0,7 0,45 0,55 1

Tabela 1: Tabela de probabilidades marginais e conjuntas para A e B. Podemos desenvolver a fórmula da probabilidade condicional usando o teorema de Bayes para encontrar a probabilidade posteriores P(B2|A1) e o fato de que A1 = (A1 ∩ B1) ∪ (A1 ∩ B2) da seguinte forma:

(24)

= P (B2)P (A1|B2)/P (A1)

= P (B2)P (A1|B2)/[P (B1)P (A1|B1) + P (B2)P (A1|B2)] Portanto, temos P (B2|A1) = 0, 7.0, 3/[0, 3.0, 8 + 0, 7.0, 3] = 0, 467 e por-tanto P (B1|A1) = 1 − 0, 467 = 0, 533. Assim, baseado nas probabilidades a priori e na informação adicional, o teorema de Bayes permite o cálculo de probabilidades a posteriori (não disponíveis inicialmente).

2.5.2 Aplicação da estatística bayesiana à análise de sequências

Na análise de sequências, a pontuação de um alinhamento local (s) entre duas sequências varia com a escolha da matriz de pontuação e do sistema de penalidades para lacunas. Até então, esses parâmetros foram escolhidos com base no desempenho de identificação de sequências relacionadas.

A aplicação da estatística bayesiana ao problema permite que o efeito de informação a priori (como a matriz de substituição escolhida) na proba-bilidade de que duas sequências sejam homólogas possa ser examinado. O método fornece uma distribuição de probabilidades posteriores de todos os al-inhamentos levando em conta todos os sistemas de pontuação. Dessa forma, os alinhamentos mais prováveis e suas probabilidades podem ser determina-dos. Esse método contorna a necessidade de escolher uma matriz de pon-tuação e uma penalidade para lacunas em particular porque uma faixa de escolhas disponíveis pode ser testada.

2.5.3 Distância evolutiva bayesiana

Agarwal e States (1996) aplicaram métodos bayesianos para obter a melhor estimativa para a distância evolutiva entre duas sequências de DNA. Os ex-emplos usados foram de sequências de mesmo comprimento que contém certo número de casamentos sem sucesso.

Uma abordagem descrita previamente foi avaliar as pontuações de alin-hamentos usando várias matrizes diferentes e então identificar qual a matriz que resultava na maior pontuação. A abordagem bayesiana continua essa análise para descobrir a probabilidade do alinhamento em função de cada distância evolutiva representada por uma matriz PAM diferente. Sejam x a distância evolutiva representada pela matriz PAMN dividida por 100, k o número de casamentos sem sucesso numa sequência de comprimento n,

P (x|k) a probabilidade de que uma sequência com k casamentos sem sucesso

esteja a uma distância x, P (k|x) o logaritmo da pontuação das chances para a sequência com k casamentos sem sucesso na matriz PAM100x de DNA e

P (x) a probabilidade a priori da distância x (normalmente igual a 1 dividido

(25)

P (x|k) = P (k|x)P (x)/P (k)

= P (k|x)P (x)/X

x

P (k|x)P (x)

O denominador é a soma é a soma da pontuação das chances sobre x (que varia de 0, 01 a 4, representando as distâncias de P AM 1 a P AM 400 - ≈ 10 milhões a 4 bilhões de anos) vezes a probabilidade a priori de cada valor de

x. Essa soma representa a área sob a curva de probabilidade e tem o efeito

de normalizá-la para cada matriz de pontuação usada. O formato da curva de probabilidade indica como P (x|k) varia com x.

Uma das dificuldades com tais estimações é que a estimativa depende da suposição de que a taxa de mutação em sequências é constante com o tempo (a hipótese do relógio molecular) e é a mesma para todos os nucleotídeos. Outra dificuldade está em decidir qual o comprimento da sequência que foi duplicada. Em genomas, a presença de repetições pode ser revelada por extensas de posições que casam dispersas entre regiões que ao casam. Porém, conforme a frequência dos casamentos sem sucesso aumenta, fica mais difícil determinar a extensão da região de repetição.

Uma desvantagem da abordagem bayesiana é o requisito de um mod-elo mutacional específico, enquanto outros métodos (como o da máxima verossimilhança) podem estimar tanto a distância quanto o melhor mod-elo mutacional (embora o método bayesiano seja computacionalmente mais eficiente).

2.5.4 Algoritmos bayesianos para alinhamento de sequências

Zhu et al. (1998) desenvolveram um programa chamado alinhador de blocos de Bayes, no qual duas sequências são comparadas para achar os blocos (regiões sem lacunas com as maiores pontuações possíveis). Em seguida, esses blocos são unidos de várias formas para produzir alinhamentos. Em vez de usar uma dada matriz de substituição e um sistema de pontuação para lacunas, uma abordagem bayesiana é utilizada. Dado um conjunto de matrizes de substituição e número esperado de blocos no alinhamento como informação a priori, o método fornece distribuições de probabilidades posteriores de alinhamentos.

Outro tipo de análise que pode ser feita com o alinhador de blocos de Bayes é sobre a probabilidade de alinhamentos. Nesse método, todos os alinhamentos possíveis são considerados para um número razoável de blocos e um conjunto de matrizes de substituição, e são devolvidas as probabilidades de vários alinhamentos.

(26)

Uma das principais críticas ao método é a predição de falsos negativos em alinhamentos estruturais, provavelmente por causa das condições relaxadas para a pontuação de alinhamentos no uso de informação a priori irrestrita. Portanto, a escolha prudente é usar o alinhador de Bayes como uma ferra-menta entre várias para alinhar sequências.