• Nenhum resultado encontrado

2.3 Abordagens empregadas para MSA

2.3.1 Algoritmos progressivos

Alinhamento progressivo ´e uma das maneiras mais simples e efetivas para a realiza¸c˜ao de alinhamentos m´ultiplos com um pequeno requisito de tempo e mem´oria. Essa abordagem foi inicialmente descrita por Hogeweg e Hesper [116] e depois reinventada por Feng e

2.3. Abordagens empregadas para MSA 17

Tabela 2.5: Abordagens heur´ısticas para alinhamento m´ultiplo.

Abordagem Descri¸c˜ao

Progressiva Caracteriza-se por construir MSAs atrav´es de alinha-

mentos de pares. Maiores detalhes na Se¸c˜ao 2.3.1.

Iterativa Necessita de m´etodos para gerar MSA(s) inicial(is).

Cabe a ele a tarefa de refin´a-lo(s). Maiores detalhes na Se¸c˜ao 2.3.2.

Baseada em consistˆencia Considera MSA ´otimo aquele que est´a de acordo com a maioria dos alinhamentos ´otimos de pares. Maiores detalhes na Se¸c˜ao 2.3.3.

Baseada em consenso Recebe MSAs como entrada e realiza a combina¸c˜ao de- les de forma que o alinhamento resultante seja consis- tente com os MSAs de entrada. Maiores detalhes na Se¸c˜ao 2.3.4.

Baseada em modelos Utiliza alinhamentos estruturais ou de perfis, cons- tru´ıdos a partir das sequˆencias de entrada, para me- lhorar a qualidade de MSAs com sequˆencias de entrada de menor grau de similaridade. Maiores detalhes na Se¸c˜ao 2.3.4.

Baseada em blocos Utiliza blocos, alinhamentos locais, como ˆancoras para guiar a constru¸c˜ao do MSA. Maiores detalhes na Se¸c˜ao 2.3.4.

Doolittle [74] e Taylor [239]. Diversos pacotes para constru¸c˜ao de MSAs s˜ao baseados nessa abordagem, dentre eles: Pileup (componente do pacote GCG [58]), MultiAlign [53] e Clustal W [245]. Essa abordagem oferece um bom desempenho quando as sequˆencias s˜ao hom´ologas e relativamente bem conservadas [74, 239]. O principal problema da abordagem progressiva ´e a sua natureza gulosa, onde erros cometidos em etapas iniciais do processo n˜ao ser˜ao mais corrigidos [65].

Estrat´egias de otimiza¸c˜ao iterativas tˆem sido propostas para resolver tal problema, tais como: RIW ou DNR [93]. Em testes, esses m´etodos apresentaram melhores desempenhos que o Clustal W, por exemplo. Por´em, mesmo sendo mais r´apidos que algoritmos ´otimos, s˜ao ainda muito lentos para entradas grandes.

Alinhamento progressivo consiste em construir um alinhamento m´ultiplo a partir de alinhamentos de pares. Nessa abordagem ´e poss´ıvel identificar trˆes passos: computa¸c˜ao dos alinhamentos de pares, constru¸c˜ao da ´arvore guia a partir das distˆancias de pares e constru¸c˜ao do alinhamento m´ultiplo guiado pela ´arvore. As diferen¸cas entre as ferramentas para MSA que fazem uso da abordagem progressiva est˜ao nos m´etodos que utilizam em cada um dos trˆes passos.

Clustal W, por exemplo, permite o uso de programa¸c˜ao dinˆamica ou m´etodos heur´ıs- ticos para a computa¸c˜ao dos alinhamentos de pares. Com programa¸c˜ao dinˆamica, tem-se resultados mais precisos, no entanto, com os m´etodos heur´ısticos ´e poss´ıvel ganhar em ve- locidade de processamento. Para a constru¸c˜ao da ´arvore guia h´a diversos m´etodos, dentre eles UPGMA [228] e Neighbor Joining [210]. ´E conhecido um problema no UPGMA, onde uma ordem de ramifica¸c˜ao incorreta pode ser produzida quando as taxas de substitui¸c˜ao variam em diferentes linhagens. Esse problema levou a utiliza¸c˜ao de Neighbor Joining, em vez de UPGMA, no Clustal W1 [65]. No terceiro passo ´e preciso, inicialmente, determinar

um m´etodo para a sele¸c˜ao do par de sequˆencias (ou alinhamentos) a agrupar. O princi- pal problema desse passo, entretanto, consiste no alinhamento de dois alinhamentos. O m´etodo mais simples ´e reduzir cada alinhamento a uma sequˆencia consenso e usar um algoritmo de alinhamento de pares comum. Outro m´etodo, utilizado pela maioria dos programas, ´e representar alinhamento atrav´es de perfis, que reduzem colunas a distri- bui¸c˜oes das frequˆencias de cada letra. Alinham-se dois perfis de forma similar a de duas sequˆencias por programa¸c˜ao dinˆamica.

O esquema de pontua¸c˜ao ´e o componente de maior influˆencia nos resultados dos algo- ritmos progressivos. Tais esquemas podem ser divididos em duas categorias: baseados em matriz e baseados em consistˆencia. Os algoritmos baseados em matriz usam uma matriz de substitui¸c˜ao para avaliar o custo de relacionar dois s´ımbolos. S˜ao exemplos de algorit- mos baseados em matriz: Clustal W [245], MUSCLE [68] e Kalign [146]. Os algoritmos baseados em consistˆencia incorporam um maior conjunto de informa¸c˜oes na avalia¸c˜ao. Inicialmente tal m´etodo foi utilizado no T-COFFEE [183], inspirado no DiAlign [168]. Depois surgiram outros algoritmos que utilizam a mesma id´eia. O PCMA [199] reduz os requisitos computacionais exigidos pelo T-COFFEE. O ProbCons [60] adiciona o uso de consistˆencia Bayesiana e HMM. MUMMALS [196] combina o esquema de pontua¸c˜ao do ProbCons com a estrat´egia do PCMA. Outro exemplo ainda de algoritmo baseado em consistˆencia ´e o MAFFT [135], que utilizando transformada r´apida de Fourier para gerar uma ´arvore guia e, assim, gera alinhamentos precisos em um tempo curto [136]. Estudos tˆem indicado que os m´etodos baseados em consistˆencia s˜ao mais precisos que os m´etodos baseados em matriz, mas geralmente requerem um maior tempo de processamento.

MUSCLE [68, 69] ´e um pacote de alinhamento progressivo extremamente r´apido e preciso. Seu primeiro passo ´e gerar um esbo¸co de um alinhamento atrav´es de uma ´arvore guia imatura. As distˆancias entre os pares de sequˆencias de entrada s˜ao estimadas usando contagem k-mer para um alfabeto restrito [67] e, juntamente com um algoritmo de agrupa- mento, d˜ao origem `a ´arvore guia inicial. MUSCLE implementa a pontua¸c˜ao LE (do inglˆes,

1Nas vers˜oes anteriores, Clustal e Clustal V, era utilizado UPGMA. Al´em destas, ainda h´a Clustal

X, que ´e uma vers˜ao gr´afica para Clustal W com ferramentas para visualiza¸c˜ao de MSAs, e vers˜oes mais recentes, como DbClustal, que utiliza a abordagem baseada em modelos, e Clustal Ω [221], que produz alinhamento de boa qualidade com um elevado throughput.

2.3. Abordagens empregadas para MSA 19

Log Expectation) para alinhar perfis durante o alinhamento progressivo. Uma vez gerado

o MSA inicial, passa-se ao refinamento do alinhamento pela gera¸c˜ao de uma ´arvore guia mais precisa, baseando-se no alinhamento inicial. LE tem apresentado bons resultados em buscas por homologia [252]. Nas vers˜oes mais recentes do MUSCLE, foi adicionado um refinamento iterativo utilizado pelo ProbCons.

Dentre os algoritmos progressivos, destaca-se o Clustal W [245], que inclui uma va- riedade de heur´ısticas altamente especializadas destinadas a m´axima explora¸c˜ao de in- forma¸c˜oes acerca das sequˆencias. Com isso, diferencia-se da maioria dos outros alinhadores progressivos por prover penalidade de gap local, escolha autom´atica da matriz de substi- tui¸c˜ao, ajuste autom´atico de penalidade para gap e retardo do alinhamento de sequˆencia com baixo grau de relacionamento.

A Tabela 2.6 apresenta uma breve descri¸c˜ao de alinhadores progressivos de destaque. Tabela 2.6: Alinhadores progressivos de destaque.

Alinhador Descri¸c˜ao Ano

Clustal W [245] Inclui uma variedade de heur´ısticas altamente especializa- das destinadas a m´axima explora¸c˜ao de informa¸c˜oes acerca das sequˆencias.

1994

MUSCLE [68] Utiliza um algoritmo de contagem k-mer e um alfabeto comprimido [67] para computar a matriz de distˆancias e um algoritmo de agrupamento para gerar a ´arvore guia. Implementa uma pontua¸c˜ao chamada LE (do inglˆes, Log

Expectation) para alinhar perfis.

2004

MAFFT [135] Utiliza transformada r´apida de Fourier para gerar uma ´arvore guia e, assim, gerar alinhamentos precisos em um tempo curto.

2005

Clustal Ω [221] M´etodo preciso e veloz, ´e capaz de alinhar grandes entradas em um tempo curto quando comparado a outros alinhado- res. Faz uso de uma vasta quantidade de informa¸c˜oes pr´e- computadas, dispon´ıveis em bases de dados p´ublicas como Pfam [75].

2011

Documentos relacionados