As matrizes BLOSUM - BLOOM BLAST Object Oriented Management: uma solução integrada para gerenci

Este modelo foi desenvolvido por Steven e Jorja Henikoff em 1992, paralelamente ao seu trabalho de construção do banco de dados BLOCKS, descrito acima.

As matrizes BLOSUM possuem uma apresentação similar às matrizes PAM (uma matriz 20 x 20), mas seus desenvolvedores fizeram uso de uma estratégia diferente e de um conjunto muito maior de dados para estimar as freqüências-alvos. [BLC, 1999] Os valores das matrizes foram baseados na observação direta de substituição de aminoácidos de um conjunto de aproximadamente 2000 padrões conservados de aminoácidos, chamados blocos, que atuam como assinaturas das famílias de proteínas das quais derivam. [Baxevanis e Ouellette, 2001] Esses blocos foram encontrados no banco de dados BLOCKS, o qual contém alinhamentos múltiplos locais (blocos) envolvendo seqüências distantemente relacionadas, ao contrário do enfoque utilizado pela matriz

PAM. Embora não exista nenhum modelo evolucionário neste caso, é vantajoso ter dados gerados por observação direta e não por extrapolação.

Cada coluna do alinhamento dos blocos provia um conjunto de possíveis substituições de aminoácidos e consideraram-se as hipóteses: a) os eventos mutacionais são independentes do contexto; b) um acontecimento mutacional numa certa posição é independente dos eventos mutacionais anteriores que tiveram lugar nessa posição; c) a probabilidade de substituição de X por Y é a mesma que a de uma mudança reversa de Y resulte X; d) substituições mais comuns devem representar uma relação mais próxima entre dois aminoácidos de proteínas relacionadas e, por isso, recebem valores mais favoráveis no alinhamento; e e) contrariamente, substituições raras são menos favorecidas. Este procedimento, no entanto, poderia levar a uma representação excessiva das substituições que ocorrem na maioria dos membros de famílias de proteínas relacionadas [BLC, 1999].

Para reduzir essa interferência dos membros mais relacionados, as seqüências dessas proteínas foram agrupadas em uma única seqüência antes de atribuir valores aos alinhamentos das seqüências dos blocos. Padrões com 62% de identidade foram novamente reagrupados para formar uma matriz de substituição chamada BLOSUM62 (Tabela 3.3-13), e aquelas com 80% de identidade formaram uma outra matriz chamada BLOSUM80, e assim por diante. Ou seja, [Baxevanis e Ouellette, 2001] do mesmo modo que acontece no modelo PAM, existe uma série numerada de matrizes BLOSUM, mas o número, neste caso, refere-se ao nível máximo de identidade que as seqüências possam ter e ainda contribuir independentemente para o modelo.

Desse modo, para comparar seqüências similares, foram construídas matrizes usando altos percentuais, enquanto baixos percentuais são mais apropriados para comparação de seqüências altamente divergentes [Pearson, 2001] De fato, as matrizes BLOSUM, em especial a BLOSUM62, atuam substancialmente melhor que as matrizes PAM com os procedimentos BLASTP e FASTA, mas ambas (BLOSUM e PAM) podem apresentar bons resultados quando usadas com penalidades ótimas para as lacunas.

As matrizes BLOSUM e PAM diferem não somente no modo pelo qual são construídas, mas também em seu uso. As matrizes PAM de baixos percentuais (PAM1,

PAM20, PAM40 etc) indicam o acontecimento de pouca mudança evolucionária. Já os altos números das matrizes BLOSUM (por exemplo, BLOSUM80), em contraste, é que indicam a mesma situação de pouca mudança evolucionária e alto grau de conservação das seqüências [Pearson, 2001], conforme figura a seguir:

Alta similaridade Baixa similaridade

BLOSUM80 BLOSUM62 BLOSUM45

PAM1 PAM120 PAM250

Menos divergente Mais divergente

Figura 3.3-14 – Comparação do grau de divergência entre as matrizes BLOSUM e PAM.

Baseada em http://www.ncbi.nih.gov/Education/BLASTinfo/Scoring2.html.

A aprimoramento das matrizes BLOSUM em relação às matrizes PAM provavelmente deriva de dois fatores. O primeiro é que em 1992 - diferentemente das matrizes PAM construídas em 1978 - muitas outras seqüências de proteínas já haviam se tornado conhecidas e, assim, essas matrizes incorporaram novas observações de substituições de aminoácidos. O segundo fator é que as substituições usadas na construção das matrizes BLOSUM são aquelas substituições diretamente observadas em blocos bem conservados de alinhamento múltiplo das seqüências [PSC, 1999], e não por extrapolação de uma matriz inicial, o caso das matrizes PAM com relação à PAM1.

Limitando as substituições incluídas aos blocos bem conservados, isso leva a, pelo menos, dois benefícios: a) os alinhamentos são mais confiáveis nesses blocos e a proporção de substituições falsas ficam reduzidas; e b) igualmente importante, talvez esses blocos bem conservados sejam as regiões mais prováveis de serem encontradas nas buscas em bancos de dados e, assim, as matrizes BLOSUM representam os padrões de substituição mais apropriados [PSC, 1999].

A matriz BLOSUM62 C S T P A G N D E Q H R K M I L V F Y W C 9 C S -1 4 S T -1 1 5 T P -3 -1 -1 7 P A 0 1 0 -1 4 A G -3 0 -2 -2 0 6 G N -3 1 0 -2 -2 0 6 N D -3 0 -1 -1 -2 -1 1 6 D E -4 0 -1 -1 -1 -2 0 2 5 E Q -3 0 -1 -1 -1 -2 0 0 2 5 Q H -3 -1 -2 -2 -2 -2 1 -1 0 0 8 H R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 R K -3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 5 K M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 M I -1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 I L -1 -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 L V -1 -2 0 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 V F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 F Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 Y W -2 -3 -2 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11 W C S T P A G N D E Q H R K M I L V F Y W

Tabela 3.3-13 – A matriz BLOSUM62.

Os aminoácidos estão agrupados de acordo com as propriedades do Radical : C (sulfidril), STPAG (pequenos e hidrofílicos), NDEQ (ácido, amido ácido e hidrofílico), HRK (básicos), MILV (pequenos e hidrofóbicos) e FYW (aromáticos). Comparada à matriz PAM160, esta matriz BLOSUM62 atribui valores positivos maiores para desigualdades entre aminoácidos raros (por exemplo, cisteína) e entre aminoácidos hidrofóbicos, e também valores mais negativos para desigualdades entre aminoácidos hidrofílicos. Baseado em

http://www.blc.arizona.edu/courses/bioinformatics/blosum.html.

Na tabela acima (Tabela 3.3-13), [BLC, 1999] cada entrada é a freqüência atual de ocorrência do par de aminoácido no BLOCKS, agrupado com os demais de 62% de identidade, dividido pela probabilidade esperada de ocorrência. O valor esperado é calculado a partir da freqüência de ocorrência de cada um dos dois aminoácidos no BLOCKS, e provê uma medida de um alinhamento aleatório dos dois aminoácidos. A proporção atual/esperada é expressa como um escore “log–odds” das chamadas unidades halfbit, obtidas pela conversão da proporção para um logaritmo de base 2 multiplicado por 2. Um escore zero significa que a freqüência do par de aminoácidos no banco de dados é a mesma esperada “por acaso”; um valor positivo mostra que o par foi encontrado mais freqüentemente que “por acaso”; e um escore negativo significa que o par foi encontrado menos freqüentemente que “por acaso”. Pode-se perceber que os mais

altos escores acontecem entre aminoácidos do mesmo grupo químico, algo também visto nas matrizes PAM.

3.3.9 Algoritmos heurísticos para buscas em bancos de dados

O advento de tecnologias rápidas e confiáveis para seqüenciamento de ácidos nucléicos e proteínas fez com que os atuais bancos de dados crescessem a uma proporção exponencial. Em uma aplicação típica de busca nessas bases, a operação básica é determinar quais das milhares de seqüências armazenadas apresentam maior similaridade com relação a uma particular seqüência de interesse. Os resultados são relatados como uma lista ordenada de ocorrências, seguida por uma série de alinhamentos individuais, vários escores e estatísticas.

Por isso, a escolha do programa de busca, do banco de dados e de vários outros parâmetros opcionais pode causar um impacto na efetividade dessa busca. Além do mais, existem várias interfaces para facilitar a interação, tais como comandos de estilo console, formulários Web e E-mails. Uma vantagem desse enfoque é que, para qualquer alinhamento observado, conseguem-se anotações completas e citações literárias que podem ser obtidas por meio das âncoras de hipertexto disponibilizadas [Baxevanis e Ouellette, 2001].

Esse acúmulo de dados criou uma necessidade por programas eficientes para serem usados em buscas nesses repositórios. No entanto, a aplicação direta dos métodos de programação dinâmica tornou-se impraticável para essa tarefa por três motivos: a) a busca seria extremamente demorada; b) [Baxevanis e Ouellette, 2001] esses algoritmos concentraram-se no alinhamento de pares específicos, mas, para uma seqüência recém- determinada, não se teria nenhum caminho para saber qual a outra apropriada para usar em tal comparação; e c) [Meidanis e Setubal, 1997] a complexidade quadrática de tempo e

espaço desses métodos fê-los inadequados para largas buscas em bancos de dados.

Para contornar esses problemas, uma solução seria empregar computadores paralelos e outros equipamentos especializados para continuar utilizando os já existentes algoritmos rigorosos. No entanto, o que está mais ao alcance são computadores de propósito geral e, por isso, é necessário recorrer a métodos baseados em heurísticas65, os

quais fazem uso de aproximações para significativamente acelerar as comparações de seqüências, embora não garantam que as melhores identidades sejam encontradas e ainda apresentem um pequeno risco de que alinhamentos de altos escores sejam perdidos [Baxevanis e Ouellette, 2001]. Em geral, esses métodos dificultam o estabelecimento da complexidade teórica de espaço e tempo, mas, apesar disso, têm-se mostrado ferramentas muito importantes [Meidanis e Setubal, 1997].

Um método heurístico é baseado na estratégia de particionamento de uma seqüência em pedaços menores de caracteres consecutivos, as chamadas palavras. Métodos baseados em palavras foram introduzidos no início da década de 1980 e são usados, na prática, por todos os programas populares de busca atuais. A idéia básica é que um alinhamento representando um relacionamento verdadeiro entre duas seqüências conterá, pelo menos, uma palavra que seja comum a ambas. As ocorrências podem ser identificadas de modo muito rápido pela pré-indexação de todas as palavras da seqüência de busca e posterior consulta a esse índice à medida que o banco de dados vai sendo rastreado [Baxevanis e Ouellette, 2001].

Dois algoritmos heurísticos rápidos são freqüentemente usados para busca em bancos de dados de seqüências de DNA e proteína: BLAST (Basic Local Alignment Search Tool ou Ferramenta Básica de Busca de Alinhamento Local) e FASTA (Fast Alignment ou Alinhamento Rápido). [Meidanis e Setubal, 1997] Nenhum deles usa

programação dinâmica pura, embora FASTA execute uma variante do método de Smith- Waterman para refinar alinhamentos obtidos por outros de seus procedimentos. [Pearson, 2001] Esses métodos chegam a ser 5 a 50 vezes mais rápidos que os algoritmos rigorosos de programação dinâmica, e podem produzir resultados de qualidade similar em muitos casos porque examinam apenas uma porção dos alinhamentos potenciais entre duas seqüências.

Este algoritmo é um enfoque heurístico para alinhamentos rápidos de pares de seqüências de DNA e proteína e que tenta aproximar o melhor alinhamento local e o escore, reduzindo o custo computacional que ocorreria pela aplicação direta do procedimento Smith-Waterman. [Baxevanis e Ouellette, 2001] A primeira versão do FAST, o

No documento BLOOM BLAST Object Oriented Management: uma solução integrada para gerenciamento dos resultados do BLAST por meio de um paradigma orientado a objetos (páginas 89-94)