Alinhamento global
Prof. Dr. Rodrigo Matheus Pereira
Faculdade de Ciências Biológicas e Ambientais FCBA - UFGD
Alinhamento Múltiplo
Qual é a vantagem de se realizar um alinhamento Qual é a vantagem de se realizar um alinhamento
Alinhamento Múltiplo
A grande vantagem do alinhamento múltiplo é que ele revela muito mais informação biológica e de uma só vez;
Identificar domínios conservados, incluindo resíduos críticos para a função da proteína;
Alinhamento Múltiplo
Além disso é uma etapa prévia e essencial na análise filogenética;
Também pode ser utilizado para auxiliar no desenho Também pode ser utilizado para auxiliar no desenho
Alinhamento Múltiplo
É possível utilizar programação dinâmica para realizar alinhamento múltiplo ótimo, porém há um limite;
A quantidade de tempo computacional e memória A quantidade de tempo computacional e memória
requeridos aumenta exponencialmente a medida que o número de sequências aumenta;
Ex.: O número de comparações a serem feitas será o número de bases (nt ou aa) elevado ao número de seqüências alinhadas;
Alinhamento Múltiplo
O que é programação dinâmica?
Um algoritmo de programação dinâmica resolve cada Um algoritmo de programação dinâmica resolve cada
subproblema apenas uma vez e armazena o resultado em uma tabela, evitando o trabalho de recalcular a resposta toda vez que o subproblema é encontrado.
Alinhamento Múltiplo
O alinhamento múltiplo pode ser realizado através de algoritmos heurísticos ou algoritmos exaustivos;
Algoritmos exaustivos: Algoritmos exaustivos:
Poucos programas utilizam esse tipo de análise baseado em “força bruta”devido ao “custo”
computacional;
Ex.: http://bibiserv.techfak.uni-bielefeld.de/dca
Alinhamento Múltiplo
Algoritmos exaustivos:
Examina todas as possíveis posições alinhadas de cada sequência simultaneamente, similar a programação dinâmica.
dinâmica.
O algoritmo DCA trabalha quebrando as sequências em pequenas partes;
Alinhamento Múltiplo
Algoritmos exaustivos - algoritmo DCA;
Os pontos de quebra são baseados na similaridade das sequências;
sequências;
Quando o comprimento da sequência chega a um tamanho predefinido a programação dinâmica é aplicada a cada conjunto de subsequências;
Alinhamento Múltiplo
Algoritmos exaustivos - algoritmo DCA;
Posteriomente as sequências unidas no passo anterior passam por alinhamento múltiplo realizado com o
passam por alinhamento múltiplo realizado com o comprimento inteiro de todas as sequências;
Como os algoritmos exaustivos não são viáveis para uso rotineiro, os algoritmos heurísticos foram criados;
Alinhamento Múltiplo
Algoritmos heurísticos; 3 categorias: Alinhamento progressivo; Alinhamento iterativo; Alinhamento iterativo;Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento progressivo;
Envolve vários passos de alinhamento;
Primeiro ele conduz um alinhamento par a par para cada possível par de sequências usando o método de cada possível par de sequências usando o método de alinhamento global Needleman–Wunsch;
Em seguida grava a pontuação das similaridades encontradas na comparação par a par;
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento progressivo;
A pontuação pode ser baseada em porcentagem de
identidade ou pontuação de similaridade escolhendo-se uma matriz de substituição particular;
uma matriz de substituição particular;
Ambas pontuações correlacionam-se com distâncias evolutivas entre as sequências;
A pontuação é então convertida em distância
evolucionaria gerando uma matriz de distância para todas as sequências envolvidas;
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento progressivo;
Uma simples análise filogenética é então realizada
baseada na matriz de distância do grupo de sequência baseada na matriz de distância do grupo de sequência levando-se em consideração a pontuação da distância obtida no alinhamento par a par;
A árvore evolucionária obtida, reflete a distância evolucionária entre todas as sequências;
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento progressivo;
Cuidado!!! A árvore resultante é apenas um resultado aproximado, não tem o rigor de uma árvore
filogenética formalmente construída. filogenética formalmente construída.
Ela é utilizada como guia para direcionar o
realinhamento, por isso é chamada de árvore guia; Cada duas sequências alinhadas geram um consenso
que será alinhado a próxima sequência e assim por diante;
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento progressivo;
Clustal
ClustalW on-line: www.ebi.ac.uk/clustalw/
ClustalX desktop: http://www.softpedia.com/get/Science- ClustalX desktop:
Alinhamento Múltiplo
Alinhamento Múltiplo
Alinhamento Múltiplo
Alinhamento Múltiplo
Baseado nela é feito um alinhamento par a par separadamente;
Sequencias consenso são geradas e realinhadas entre elas;
Alinhamento Múltiplo
Uma nova sequência consenso será criada e irá ser alinhada a próxima sequência;
Alinhamento Múltiplo
Cuidados ao usar o clustal;
Como realiza um alinhamento global o clustal tentará realizar o alinhamento de toda a proteína não “jogando fora pedaços” como ocorre no caso de alinhamento por fora pedaços” como ocorre no caso de alinhamento por blast.
É muito importante que haja uma seleção criteriosa de que seqüências e quais regiões destas seqüência serão alinhadas ;
Alinhamento Múltiplo
Cuidados ao usar o clustal;
Muitas vezes ao invés de selecionarmos proteínas inteiras, que podem conter um mosaico de regiões com inteiras, que podem conter um mosaico de regiões com diversas origens evolutivas, é preferível alinhar somente regiões de domínios em comum;
Alinhamento Múltiplo
Cuidados ao usar o clustal;
Alinhamento de múltiplas seqüências são bastante influenciados pelas penalizações de abertura e
extensão de gaps e ao fazer alinhamentos o usuário extensão de gaps e ao fazer alinhamentos o usuário
normalmente deve ajustar estes parâmetros de modo a obter um bom alinhamento;
Para o alinhamento de seqüências mais divergentes é necessário a utilização de penalizações menores para a abertura de gaps;
Alinhamento Múltiplo
Devido aos problemas do algoritmo de alinhamento progressivo quando alinhamos seqüências distantes é sempre recomendável inserir no alinhamento múltiplo seqüências adicionais que sejam mais próximas das
seqüências adicionais que sejam mais próximas das seqüências analisadas;
De modo geral , ter um número razoável de seqüências ajuda o programa de alinhamento múltiplo e facilita a interpretação dos dados;
Alinhamento Múltiplo
Um problema do clustal é ser altamente dependente da qualidade dos alinhamentos iniciais, visto que ao longo do processo eles não serão mais alterados;
Dificuldade é maior quando mesmo as seqüências mais próximas são distantemente relacionadas;
Alinhamento Múltiplo
Para tentar superar alguns dos problemas citados outros programas foram criados;
T-Coffee
T-Coffee (Tree-based Consistency Objective Function for T-Coffee (Tree-based Consistency Objective Function for
alignment Evaluation);
http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/tcoffee_cgi/index.cgi Usa alinhamento global e local para criar uma biblioteca
com as melhores pontuações de alinhamento;
A partir daí o alinhamento das demais sequências é realizada;
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento progressivo Muscle
Ideal para proteínas;
http://www.ebi.ac.uk/Tools/msa/muscle/ http://www.ebi.ac.uk/Tools/msa/muscle/
Alinhamento Múltiplo
Algoritmos heurísticos; 3 categorias: Alinhamento progressivo; Alinhamento iterativo; Alinhamento iterativo;Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento iterativo;
O método iterativo é baseado na idéia de que uma solução ótima pode ser encontrada através da modificação
ótima pode ser encontrada através da modificação repetitiva de soluções sub-ótimas;
Devido a ocorrência de limitações do alinhamento progressivo foi
implementado nas ultimas versões do clustal um algoritmo
utilizando aproximação sucessiva (iterativo)para minimizar este tipo de problema;
Iterativo significa passar pelo mesmo lugar várias vezes, alterando
várias vezes uma mesma parte, refatorando e adicionando funcionalidades.
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento iterativo;
O algoritmo realiza após cada alinhamento um
procedimento no qual ele seleciona uma seqüência e realinha esta com o resto do alinhamento;
realinha esta com o resto do alinhamento;
Caso o escore resultante for melhor que o inicial o novo alinhamento é mantido;
Isto é realizado sucessivamente com todas as seqüências do alinhamento.
Alinhamento Múltiplo
Algoritmos heurísticos; 3 categorias: Alinhamento progressivo; Alinhamento iterativo; Alinhamento iterativo;Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento baseado em blocos;
As estratégias de alinhamento progressivo e iterativo são em grande parte baseadas no alinhamento global são em grande parte baseadas no alinhamento global Podem devido a isso falharem em reconhecer alguns
domínios conservados entre sequências altamente divergentes de comprimentos variáveis;
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento baseado em blocos;
Para cada sequência divergente que exibe apenas uma Para cada sequência divergente que exibe apenas uma
similaridade regional, uma aproximação local pode ser usada;
Alinhamento Múltiplo
Algoritmos heurísticos – Alinhamento baseado em blocos;
Essa estratégia identifica um bloco de alinhamento Essa estratégia identifica um bloco de alinhamento
sem lacunas (gaps) para todas as sequências, uma vez que essa estratégia é baseada em blocos;
Um programa que usa essa estratégia é o:
DIALIGN2
Alinhamento Múltiplo
Outros programas de alinhamento: Clustal-Omega
Usa árvores guias e HMM;
http://www.ebi.ac.uk/Tools/msa/clustalo/
MAFFT MAFFT
Muito rápido, usa transformada de Fourier http://www.ebi.ac.uk/Tools/msa/mafft/
Kalign
Muito rápido, concentra em regiões locais; http://www.ebi.ac.uk/Tools/msa/kalign/
Alinhamento Múltiplo
Bibliografia
XIONG, Jin. Essential Bioinformatics. New York: Cambridge University Press, 2006. 362 p. Capítulos 10 e 11
10 e 11
AGOSTINO, Michael. Practical bioinformatics. New York, EUA: Garland Science, ©2013. 367p. Capítulo 11
ZVELEBIL, Marketa; BAUM, Jeremy O. Understanding bioinformatics. New York: Garland Science, 2008.