• Nenhum resultado encontrado

3   Metodologias de Análise de Dados Biológicos 21

3.4   Algoritmos para alinhamento de sequências 28

3.4.2   Matrizes de Pontuação 35

Todos os métodos de alinhamentos não exaustivos necessitam de alguma forma de pontuação (score) para distinguir as correspondências correctas das incorrectas. Para um determinado alinhamento, é atribuído um número a cada posição na sequência, dependendo da pontuação nessa posição. As pontuações para todas as posições no alinhamento são adicionadas de forma a calcular a pontuação total. Esta é usada para seleccionar o alinhamento óptimo entre diversos alinhamentos alternativos. A forma mais simples de pontuação é atribuir um número para uma correspondência correcta e outro para uma não correspondência, por exemplo 1 e 0 respectivamente [98].

A matriz gerada por esse processo é designada por matriz unitária. Embora as matrizes unitárias possam ser utilizadas para alinhamento de sequências de aminoácidos, estas são mais adequadas para alinhamento de sequências de DNA. O facto de uma mudança de nucleótido poder dar origem ao mesmo aminoácido não tem associado a essa eventual alteração tanta informação como uma mudança num aminoácido. Isto porque nesse caso essa alteração dará origem a uma proteína diferente, podendo comprometer a sobrevivência do indivíduo [99]. Por esse facto, as alterações nas sequências de aminoácidos são geralmente mais representativas em termos de informação do que alterações ao nível das sequências de nucleótidos.

Atendendo à composição química dos aminoácidos é expectável que, por exemplo, a mudança de Valina para Isoleucina seja mais provável de ser encontrada do que, por exemplo, a alteração de Valina para Ácido aspártico. Esta divergência deve-se ao facto dos dois primeiros aminoácidos estarem mais próximos em termos de estrutura e composição química (partilham a mesma categoria - hidrofóbica), enquanto o Ácido aspártico se encontra na categoria dos aminoácidos de carga eléctrica negativa [98, 100].

Os programas de alinhamentos ao utilizar estas matrizes de pontuação nas sequências de aminoácidos, estão directa ou indirectamente a recorrer à teoria das probabilidades para privilegiar determinadas mudanças entre aminoácidos em detrimento de outras. No entanto, se o alinhamento estiver a ocorrer entre proteínas relacionadas, o recurso a uma matriz de pontuação simples, apenas para identidades, produzirá praticamente o mesmo alinhamento.

36

Como estas matrizes de pontuação são desenvolvidas com recurso ao cálculo estatístico, existem algumas considerações que devem ser tidas em conta, nomeadamente:

 A escolha da matriz pode influenciar fortemente o resultado da análise.  Implicitamente, as matrizes de pontuação representam uma determinada

teoria da evolução.

 Compreender as teorias subjacentes a uma determinada matriz de pontuação pode ajudar a fazer a escolha adequada.

PAM

O PAM (Point Accept Mutation) é uma família de matrizes de pontuação baseada em distâncias evolutivas. Margaret Dayhoff foi pioneira nesta abordagem, tendo apresentado em [101] um extenso estudo sobre as frequências de substituição de determinados aminoácidos por outro, durante o processo evolutivo.

Os estudos incidiram sobre alinhamentos de proteínas, envolvendo 1572 mutações em 71 famílias de proteínas fortemente relacionadas, tendo por objectivo a construção de árvore filogenética para cada família. Esse estudo levou à construção de uma tabela de frequências relativas, tendo em conta a substituição de um aminoácido por outro ao longo de um período evolutivo. Esta tabela, conjugada com a frequência relativa de ocorrência de aminoácidos nas proteínas estudadas, esteve na génese desta família de matrizes de pontuação [101].

A família de matrizes de pontuação PAM recorre a modelos de Markov e são baseadas em percentagens de mutação estimadas a partir de proteínas bastante próximas. Essas percentagens resultam das mutações de aminoácidos, causadas por alterações numa única base e representam-se na sua forma original por uma matriz x PAM (actualmente é mais frequente a sua representação por PAMx, que é a representação adoptada neste documento), onde x é o número de mutações aceites por 100 aminoácidos.

A matriz de base criada a partir dessas percentagens é designada por PAM1, que representa uma mutação por cada 100 aminoácidos. Todas as restantes matrizes PAM são obtidas pela repetição sucessiva da matriz PAM1 [101]. A título de exemplo, a matriz PAM100 corresponde a 100 mutações por 100 resíduos, ou seja, representa a matriz PAM1

37

multiplicada por si própria 100 vezes. No entanto nem todos os aminoácidos sofrem mutações de igual forma, podendo sobrepor-se inclusivamente.

Na PAM250 (Figura 3.5), onde a matriz PAM1 é multiplicada por si própria 250 vezes, apenas cerca de 80% de todos os aminoácidos é que serão substituídos, ou seja, um em cada cinco aminoácidos permanece inalterado, embora em proporções diferentes: por exemplo 48% de Triptofano, 41% da Cisteína e 20% de Histeína permanecem inalterado, mas apenas 7% de Serina permanecerá igual [102]. A razão para essas diferenças podem ser de origem quer estrutural, quer funcional. Por exemplo, o Triptofano tem uma cadeia lateral grande, pelo que não seria fácil substituí-lo por outro aminoácido. Essa substituição poderá originar uma cavidade no interior da estrutura, que irá comprometer a estrutura da proteína como um todo [102].

Figura 3.5: Matriz PAM250 em que os valores estão multiplicados por 100 [102]

As frequências dessas mutações são obtidas através do cálculo do logaritmo sobre a matriz das probabilidades, utilizando a fórmula:

Mij = log(Rij/(pipj)) 

Na fórmula Mij é o elemento da matriz PAM, Rij é o elemento da matriz de frequências de

mutações observadas e pi e pjsão as frequências estimadas para o aminoácido na linha i e

38

proporcionalidade inteira positiva que não tem influência na obtenção de resultados, servindo apenas como multiplicador dos elementos da matriz (na figura 3.5, =100) [103]. A matriz resultante apresenta valores positivos, que indicam a existência de uma tendência favorável para a substituição, valores nulos indicam que a probabilidade de mutação esperada é igual à probabilidade de mutação observada e valores negativos que indicam que a mutação é reprimida [101].

BLOSUM

As matrizes BLOSUM (BLOcks SUbstitution Matrix) constituem uma alternativa às matrizes da família PAM, resultado de um trabalho de investigação de Henikoff & Henikoff publicado em [98]. Usando uma abordagem diferente, as matrizes de substituição da família BLOSUM, como as utilizadas no software BLAST (Figura 3.6) são baseadas em cerca de 2000 blocos de segmentos de sequências alinhadas caracterizando mais de 500 grupos de proteínas relacionadas.

Nesse estudo, os autores apontam algumas limitações conhecidas para as matrizes PAM e que motivaram o desenvolvimento de uma solução alternativa, nomeadamente:

 O pressuposto de que a taxa de mutação para todos os resíduos de uma proteína é equivalente e que todas as mutações são independentes das que já ocorreram.

 O facto de se notar erros de cálculo de estimativas na matriz PAM1 (que aceita até 1% de mutações) que se propagam e amplificam nas matrizes de ordem mais elevada.

Nesse estudo, é referido que os erros no cálculo da estimativa, estão ligados ao facto das mutações entre as sequências próximas que servem à elaboração da PAM1 serem dominados pelas substituições entre aminoácidos cujos codões apenas diferem numa base [98]. Em relação a este último problema, como alternativa à matriz PAM, os autores propuseram a obtenção das probabilidades de substituição calculadas directamente sobre os alinhamentos de sequências distantes sem extrapolação. Contam-se nesta situação as frequências de substituição por pares de aminoácidos, observadas nas colunas de alinhamentos múltiplos de proteínas da mesma família, sem inserção de espaços (gaps) [104].

39

O método utilizado, à semelhança do método anterior, baseia-se na teoria das probabilidades, recorre à seguinte fórmula:

Bij =log2(Rij/eij)

Nesta fórmula, Rij (para 1 ≤ j ≤ i ≤20) representa a probabilidade observada para cada par

de aminoácidos tendo por base a tabela de frequências observadas, ao passo que eij

representa a probabilidade esperada para cada par de aminoácidos i e j. A probabilidade

esperada de ocorrência eij para cada par i, j é dada por pi.pj para i  j e pi.pj+pj.pi  2.pi.pj para i≠j. Cada pi representa a probabilidade esperada de cada aminoácido.

O resultado é posteriormente multiplicado por um factor de escala, que é utilizado para aproximar os valores obtidos, para números inteiros. Os valores obtidos são posteriormente convertidos para o inteiro mais próximo. A matriz resultante possui valores positivos que indicam que a probabilidade observada é superior à esperada, valores negativos que indicam precisamente o contrário e valores nulos que mostram que a probabilidade observada é idêntica à probabilidade esperada [98].

Figura 3.6: Matriz BLOSUM62 usada por defeito no BLAST [98]

As matrizes são acompanhadas na sua designação - BLOSUM - por um índice que denota o nível de agrupamento. Por exemplo, a matriz BLOSUM62 é construída a partir de blocos

40

agrupados em sequências cuja similaridade é no mínimo 62%. Enquanto o índice das matrizes PAM indicam os pontos de mutação (distância evolutiva), que quanto maior for, menor é a similaridade, nas matrizes BLOSUM acontece precisamente o contrário, uma vez que o índice nessa família representa a percentagem de similaridade. Contudo pode ser estabelecido um paralelismo entre os diferentes métodos, conforme se pode observar na Figura 3.7.

Figura 3.7: Relação entre matrizes de pontuação

A BLOSUM62 é a matriz padrão na maior parte dos programas de alinhamento.

Estudos comparativos sobre a utilização das matrizes PAM e BLOSUM, comprovaram que, em regra geral, a família BLOSUM permite obter melhores resultados, no entanto existem diferentes níveis de classificação baseados na similaridade entre as sequências a analisar [105-106]. Em termos gerais, e a título de exemplo, a utilização da matriz PAM120 ou BLOSUM62, resultará na obtenção de alinhamentos semelhantes [98].