Novas Técnicas de Assembly NGS
Prof. Dr. Rodrigo Matheus Pereira
Next generation Sequence – NGS
454 – Pirosequenciamento – Roche
Solid – Aplied Biosystems
Sequências com 50 a 75 pb
30 a 50 Gb em aprox. 7 a 14 dias
Novas Técnicas de Assembly NGS
30 a 50 Gb em aprox. 7 a 14 dias
Solexa – Illumina
Sequências variando de aprox. 2x100 (2x150) Varia de acordo com o kit
500 Gb aprox. 4 a 9 dias
Ion Torrent – Life Technologies
Solid – Color space
454 – Pirosequenciamento – Roche
O primeiro a ser comercializado (2004)
Produz sequências mais longas que as demais
plataformas (aprox. : 500 pb) (700 a 800)
Novas Técnicas de Assembly NGS
plataformas (aprox. : 500 pb) (700 a 800)
Aprox. 0,45 Gb por corrida em 8 horas Problema com homopolímeros
Características gerais
Três estágios para sequenciar:
Preparar a biblioteca Amplificar o alvo
Novas Técnicas de Assembly NGS
Amplificar o alvo
454 – Pirosequenciamento – Roche
454 – Pirosequenciamento – Roche
Novas Técnicas de Assembly NGS
Novas Técnicas de Assembly NGS
Solexa- Illumina
Solid – Applied
Formato fastQ
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
Novas Técnicas de Assembly NGS
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
1)@ iniciando a identificação da sequência 2)Sequência de nucleotídeos
3)Inicia com o sinal +, pode ou não ser seguido da novamente de identificação 4) Caracteres que representam a qualidade da sequência
Formato fastQ @SRR060738.1.2 F4JY4N303HF31N.2 length=439 TTTGGCTGTTGGACCACTGCTGCCATTCGTATAACTTCGTATAATGTATGCT ATACGAAGTTATTACGGGTACTTTGTCGTACAATTTGTTCATTGTCAGTTCC GCAAGGCGATGATCAACTGCAGAGTTGAATGCTTCTATTTTATCTGAGGTC AAAGTGCCCTGGTTTTTAGCAATAATTTTCTCAAGTGTCTTTAAGCTGGAA CAGCGACGTAACTGATAATACGGCATAAGCTATGTGTTGTTGCAAACAAAA GCCGGCTCATCTGAACCGGCAGTTATGGAGGCTGCTTATCTTAAAATACTT CAGCTACAGGCATACCTGCAATCTGCTCCCACTCCTTACGCTTTTCCTGA
Novas Técnicas de Assembly NGS
CAGCTACAGGCATACCTGCAATCTGCTCCCACTCCTTACGCTTTTCCTGA ATCAGGCGAGGAAAGTCGACAGGGTAATCATATCCTCGACTTGCCATTGC TGAGACTGCCAAGGCACACAGGGGGATAGGN +SRR060738.1.2 F4JY4N303HF31N.2 length=439 HHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHIIIHHHIIIIIIE;;566?>IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIIIIIIIAAAAIIIIIIIIIIHHHIII;;;III99997GEGEDH@E3335?8EEEIIIIIHHHIIII IIIIIIIIIIIH????IIIIIHHHI???IIIIIIIIIIIIIIIIIIEGBEC?21119BEEEEEEEIIIIIIIIIIIIHHHHIIIIIIIIIIC CDIIIIAA@@HCIIIDDDHIIIIIIIIIIIIIIIIIIIIIIH===?CIIIEEIIIH9999HHDIIIIIIIIIIH?????FIII IIE799?IIIIIIIIIIHHHHHIIIIHDCCHHIIIIIIIIHHHA@@??>>?8----,38688!
Tipos de alinhamento?
Alinhamento local
Alimento semi-global
Alinhamento local
Novas Técnicas de Assembly NGS
Alinhamento local
Algoritmos para montagem
Três categorias (baseadas em grafos)
–Overlap/Layout/Consensus(OLC)
•grafo de sobreposições;
Novas Técnicas de Assembly NGS
•grafo de sobreposições;
–de BruijnGraphs(DBG)
•grafo de sobreposição de sufixo-prefixo de k-mers;
–Greedygraphs
Grafo
Grafo é uma estrutura G(V,A) onde V é um conjunto
não vazio de objetos denominados nós ou vértices
(nodes/vertices) e A é um conjunto de pares não
ordenados de V, chamado arestas ou arcos (edges/arcs).
Novas Técnicas de Assembly NGS
ordenados de V, chamado arestas ou arcos (edges/arcs).
Nós (vértices): V = {U, V, W, X, Y, Z}
Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j}
grafos de-Bruijn
Grafos k-mer
–nós – todas as subsequências de tamanho k;
–arestas – todas as sobreposições (k-1 bases)
Novas Técnicas de Assembly NGS
–arestas – todas as sobreposições (k-1 bases)
entre essas subsequências que são
consecutivas na sequência original;
–Pode representar as múltiplas sequências das
leituras e implicitamente as sobreposições;
Grafos de-Bruijn
Novas Técnicas de Assembly NGS
Características dos grafos k-mers
Em geral
–A montagem é um problema de redução de grafos.
•NP-difíceis, não há uma solução eficiente
Novas Técnicas de Assembly NGS
•NP-difíceis, não há uma solução eficiente
conhecida;
•Utilização de heurísticas: reduzir a redundância,
reparar erros, reduzir a complexidade, alargar
caminhos simples e simplificar o grafo;
Características dos grafos k-mers
Vantagens
–Desenvolvidos para lidar com a alta complexidade
e o grande volume de dados dos NGS;
Novas Técnicas de Assembly NGS
e o grande volume de dados dos NGS;
–Rápida detecção de k-mers compartilhados - reduz
custo computacional em relação à busca de
sobreposições em alinhamentos pareados;
•Não necessita comparações pareadas (todas x
Características dos grafos k-mers
Desvantagens
–Usam muita memória (tabela hashk-mers);
100 a 200 gigas
–Mais sensível a repetições e a erros de
Novas Técnicas de Assembly NGS
–Mais sensível a repetições e a erros de
sequenciamento;
–Porém
perde algumas sobreposições verdadeiras
,
dependendo do:
•tamanho de k
•tamanho da sobreposição
•taxa de erro nas leituras
Tamanho de k
Tamanho de k: não pode ser nem muito grande, nem muito
pequeno:
Novas Técnicas de Assembly NGS
–grande o suficiente para não pegar falsas sobreposições que
compartilham k-mers por acaso;
–pequeno o suficiente para que muitas sobreposições
verdadeiras compartilhem k-mers;
Problemas dos grafos de-Bruijn
Sequências palíndromes (idêntica à reversa complementar)
induz a caminhos que retornam a si (k=4; ACGT = ACGT); –ex.: utilização de um k ímpar (k=5; ACGTA ≠ TACGT) evita esse
Novas Técnicas de Assembly NGS
–ex.: utilização de um k ímpar (k=5; ACGTA ≠ TACGT) evita esse tipo de ocorrência;
•Erros de sequenciamento;
–ex.: pesar os vértices pelo número de leituras que lhes dão suporte auxilia na identificação de erros;
Complexidades em k-mers
Ramificações – caminhos sem-saídas divergentes; –Induzidos por erros no sequenciamentonas extremidades
das leituras;
Complexidades em k-mers
Bolhas–caminhos que divergem e depois convergem;
–Induzidos por erros no sequenciamentono meio das leituras;
Complexidades em k-mers
Corda esfiapada –caminhos que convergem e divergem;
–Induzidos por repetições;
Complexidades em k-mers
Ciclos–caminhos que convergem neles mesmos;
–Induzidos por repetições (e.g.repetições em tandem–pequenos ciclos);
Exemplo
Grafo completo
Após simplificação...
Após remoção de tips (erros do sequenciamento)
Após remoção de bolhas
Simplificação final
Softwares montadores (de-Bruijn)
–VELVET /Oases(http://www.ebi.ac.uk/~zerbino/velvet/)
•genomas, cDNAs
•Solexa, SOLiD, 454
•(Zerbino, D.R.e BirneyE., 2008)
Novas Técnicas de Assembly NGS
•(Zerbino, D.R.e BirneyE., 2008)
–ABySS/Trans-ABySS(http://www.bcgsc.ca/platform/bioinfo/software/abyss)
•genomas, cDNAs
•Solexa, SOLiD
Softwares montadores NGS
Mira3 (454)
chevreux.org/projects_mira.html
Newbler (Roche)
Novas Técnicas de Assembly NGS
Extensa lista de softwares para NGS
NGS segunda geração e terceira geração
Pacific biosciences
Oxford nanopore
Características
Novas Técnicas de Assembly NGS
Características
Sequenciamento não necessita de amplificação Gera reads muito longos 2 a 3 mil pb
Bibliografia
Miller JR, KorenS, Sutton G. Assembly algorithms for next-generation sequencing
data. Genomics. 2010 Jun;95(6):315-27. Epub2010 Mar 6. Review. PubMed PMID: 20211242; PubMed Central PMCID: PMC2874646;
Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de
Bruijn graphs. Genome Res. 2008 May;18(5):821-9. Epub2008 Mar 18. PubMed PMID: 18349386; PubMed Central PMCID: PMC2336801;
Novas Técnicas de Assembly NGS
PMID: 18349386; PubMed Central PMCID: PMC2336801;
Metzecker, M.L. Sequencing technologies — the next generation. Nature Review 2009, vol.
11, janeiro 2012, pag. 31
Loman, N. J. et al. High-throughput bacterial genome sequencing: an embarrassment of
choice, a world of opportunity, Nature Review Microbiology 2012, 6 August 2012; doi:10.1038/nrmicro2850
Carvalho, M.C.C.G. e Silva, D.C.G. Sequenciamento de DNA de nova geração e suas
aplicações na genômica de plantas, Ciência Rural, Santa Maria, v.40, n.3, p.735-744, mar, 2010.