• Nenhum resultado encontrado

Microsoft PowerPoint - Novas Técnicas de Assembly NGS

N/A
N/A
Protected

Academic year: 2021

Share "Microsoft PowerPoint - Novas Técnicas de Assembly NGS"

Copied!
36
0
0

Texto

(1)

Novas Técnicas de Assembly NGS

Prof. Dr. Rodrigo Matheus Pereira

(2)



Next generation Sequence – NGS



454 – Pirosequenciamento – Roche



Solid – Aplied Biosystems

 Sequências com 50 a 75 pb

30 a 50 Gb em aprox. 7 a 14 dias

Novas Técnicas de Assembly NGS

 30 a 50 Gb em aprox. 7 a 14 dias



Solexa – Illumina

 Sequências variando de aprox. 2x100 (2x150)  Varia de acordo com o kit

 500 Gb aprox. 4 a 9 dias



Ion Torrent – Life Technologies

(3)



Solid – Color space

(4)



454 – Pirosequenciamento – Roche

 O primeiro a ser comercializado (2004)

 Produz sequências mais longas que as demais

plataformas (aprox. : 500 pb) (700 a 800)

Novas Técnicas de Assembly NGS

plataformas (aprox. : 500 pb) (700 a 800)

 Aprox. 0,45 Gb por corrida em 8 horas  Problema com homopolímeros

(5)



Características gerais



Três estágios para sequenciar:

 Preparar a biblioteca  Amplificar o alvo

Novas Técnicas de Assembly NGS

Amplificar o alvo

(6)



454 – Pirosequenciamento – Roche

(7)



454 – Pirosequenciamento – Roche

Novas Técnicas de Assembly NGS

(8)

Novas Técnicas de Assembly NGS

(9)



Solexa- Illumina

(10)



Solid – Applied

(11)
(12)



Formato fastQ

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

Novas Técnicas de Assembly NGS

IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

1)@ iniciando a identificação da sequência 2)Sequência de nucleotídeos

3)Inicia com o sinal +, pode ou não ser seguido da novamente de identificação 4) Caracteres que representam a qualidade da sequência

(13)

 Formato fastQ  @SRR060738.1.2 F4JY4N303HF31N.2 length=439  TTTGGCTGTTGGACCACTGCTGCCATTCGTATAACTTCGTATAATGTATGCT ATACGAAGTTATTACGGGTACTTTGTCGTACAATTTGTTCATTGTCAGTTCC GCAAGGCGATGATCAACTGCAGAGTTGAATGCTTCTATTTTATCTGAGGTC AAAGTGCCCTGGTTTTTAGCAATAATTTTCTCAAGTGTCTTTAAGCTGGAA CAGCGACGTAACTGATAATACGGCATAAGCTATGTGTTGTTGCAAACAAAA GCCGGCTCATCTGAACCGGCAGTTATGGAGGCTGCTTATCTTAAAATACTT CAGCTACAGGCATACCTGCAATCTGCTCCCACTCCTTACGCTTTTCCTGA

Novas Técnicas de Assembly NGS

CAGCTACAGGCATACCTGCAATCTGCTCCCACTCCTTACGCTTTTCCTGA ATCAGGCGAGGAAAGTCGACAGGGTAATCATATCCTCGACTTGCCATTGC TGAGACTGCCAAGGCACACAGGGGGATAGGN  +SRR060738.1.2 F4JY4N303HF31N.2 length=439  HHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHIIIHHHIIIIIIE;;566?>IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIIIIIIIAAAAIIIIIIIIIIHHHIII;;;III99997GEGEDH@E3335?8EEEIIIIIHHHIIII IIIIIIIIIIIH????IIIIIHHHI???IIIIIIIIIIIIIIIIIIEGBEC?21119BEEEEEEEIIIIIIIIIIIIHHHHIIIIIIIIIIC CDIIIIAA@@HCIIIDDDHIIIIIIIIIIIIIIIIIIIIIIH===?CIIIEEIIIH9999HHDIIIIIIIIIIH?????FIII IIE799?IIIIIIIIIIHHHHHIIIIHDCCHHIIIIIIIIHHHA@@??>>?8----,38688!

(14)



Tipos de alinhamento?



Alinhamento local



Alimento semi-global



Alinhamento local

Novas Técnicas de Assembly NGS



Alinhamento local

(15)



Algoritmos para montagem

Três categorias (baseadas em grafos)



–Overlap/Layout/Consensus(OLC)

•grafo de sobreposições;

Novas Técnicas de Assembly NGS

•grafo de sobreposições;



–de BruijnGraphs(DBG)

•grafo de sobreposição de sufixo-prefixo de k-mers;



–Greedygraphs

(16)



Grafo



Grafo é uma estrutura G(V,A) onde V é um conjunto

não vazio de objetos denominados nós ou vértices

(nodes/vertices) e A é um conjunto de pares não

ordenados de V, chamado arestas ou arcos (edges/arcs).

Novas Técnicas de Assembly NGS

ordenados de V, chamado arestas ou arcos (edges/arcs).





Nós (vértices): V = {U, V, W, X, Y, Z}



Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j}



(17)



grafos de-Bruijn



Grafos k-mer

–nós – todas as subsequências de tamanho k;

–arestas – todas as sobreposições (k-1 bases)

Novas Técnicas de Assembly NGS

–arestas – todas as sobreposições (k-1 bases)

entre essas subsequências que são

consecutivas na sequência original;

–Pode representar as múltiplas sequências das

leituras e implicitamente as sobreposições;

(18)



Grafos de-Bruijn

Novas Técnicas de Assembly NGS

(19)



Características dos grafos k-mers



Em geral



–A montagem é um problema de redução de grafos.



•NP-difíceis, não há uma solução eficiente

Novas Técnicas de Assembly NGS



•NP-difíceis, não há uma solução eficiente

conhecida;



•Utilização de heurísticas: reduzir a redundância,

reparar erros, reduzir a complexidade, alargar

caminhos simples e simplificar o grafo;

(20)



Características dos grafos k-mers



Vantagens



–Desenvolvidos para lidar com a alta complexidade

e o grande volume de dados dos NGS;

Novas Técnicas de Assembly NGS

e o grande volume de dados dos NGS;



–Rápida detecção de k-mers compartilhados - reduz

custo computacional em relação à busca de

sobreposições em alinhamentos pareados;



•Não necessita comparações pareadas (todas x

(21)



Características dos grafos k-mers



Desvantagens



–Usam muita memória (tabela hashk-mers);

 100 a 200 gigas



–Mais sensível a repetições e a erros de

Novas Técnicas de Assembly NGS



–Mais sensível a repetições e a erros de

sequenciamento;



–Porém

perde algumas sobreposições verdadeiras

,

dependendo do:



•tamanho de k



•tamanho da sobreposição



•taxa de erro nas leituras

(22)



Tamanho de k

Tamanho de k: não pode ser nem muito grande, nem muito

pequeno:

Novas Técnicas de Assembly NGS

–grande o suficiente para não pegar falsas sobreposições que

compartilham k-mers por acaso;

–pequeno o suficiente para que muitas sobreposições

verdadeiras compartilhem k-mers;

(23)



Problemas dos grafos de-Bruijn

 Sequências palíndromes (idêntica à reversa complementar)

induz a caminhos que retornam a si (k=4; ACGT = ACGT); –ex.: utilização de um k ímpar (k=5; ACGTA ≠ TACGT) evita esse

Novas Técnicas de Assembly NGS

–ex.: utilização de um k ímpar (k=5; ACGTA ≠ TACGT) evita esse tipo de ocorrência;

 •Erros de sequenciamento;

–ex.: pesar os vértices pelo número de leituras que lhes dão suporte auxilia na identificação de erros;

(24)



Complexidades em k-mers

 Ramificações – caminhos sem-saídas divergentes;  –Induzidos por erros no sequenciamentonas extremidades

das leituras;

(25)



Complexidades em k-mers

 Bolhas–caminhos que divergem e depois convergem;

–Induzidos por erros no sequenciamentono meio das leituras;

(26)

 Complexidades em k-mers

 Corda esfiapada –caminhos que convergem e divergem;

–Induzidos por repetições;

(27)



Complexidades em k-mers

 Ciclos–caminhos que convergem neles mesmos;

–Induzidos por repetições (e.g.repetições em tandem–pequenos ciclos);

(28)



Exemplo



Grafo completo

(29)



Após simplificação...

(30)



Após remoção de tips (erros do sequenciamento)

(31)



Após remoção de bolhas

(32)



Simplificação final

(33)



Softwares montadores (de-Bruijn)

–VELVET /Oases(http://www.ebi.ac.uk/~zerbino/velvet/)

•genomas, cDNAs

•Solexa, SOLiD, 454

•(Zerbino, D.R.e BirneyE., 2008)

Novas Técnicas de Assembly NGS

•(Zerbino, D.R.e BirneyE., 2008)



–ABySS/Trans-ABySS(http://www.bcgsc.ca/platform/bioinfo/software/abyss)



•genomas, cDNAs



•Solexa, SOLiD

(34)



Softwares montadores NGS

 Mira3 (454)

chevreux.org/projects_mira.html

 Newbler (Roche)

Novas Técnicas de Assembly NGS



Extensa lista de softwares para NGS

(35)



NGS segunda geração e terceira geração



Pacific biosciences



Oxford nanopore



Características

Novas Técnicas de Assembly NGS



Características

 Sequenciamento não necessita de amplificação  Gera reads muito longos 2 a 3 mil pb

(36)



Bibliografia

 Miller JR, KorenS, Sutton G. Assembly algorithms for next-generation sequencing

data. Genomics. 2010 Jun;95(6):315-27. Epub2010 Mar 6. Review. PubMed PMID: 20211242; PubMed Central PMCID: PMC2874646;

 Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de

Bruijn graphs. Genome Res. 2008 May;18(5):821-9. Epub2008 Mar 18. PubMed PMID: 18349386; PubMed Central PMCID: PMC2336801;

Novas Técnicas de Assembly NGS

PMID: 18349386; PubMed Central PMCID: PMC2336801;

 Metzecker, M.L. Sequencing technologies — the next generation. Nature Review 2009, vol.

11, janeiro 2012, pag. 31

 Loman, N. J. et al. High-throughput bacterial genome sequencing: an embarrassment of

choice, a world of opportunity, Nature Review Microbiology 2012, 6 August 2012; doi:10.1038/nrmicro2850

 Carvalho, M.C.C.G. e Silva, D.C.G. Sequenciamento de DNA de nova geração e suas

aplicações na genômica de plantas, Ciência Rural, Santa Maria, v.40, n.3, p.735-744, mar, 2010.

Referências

Documentos relacionados

da emissão do boleto, bem como os prazos, e não analise somente o valor da prestação, pois você poderá pagar caro pelo produto adquirido. Se tiver dúvida sobre as taxas

0278-4319 ADMINISTRAÇÃO, CIÊNCIAS CONTÁBEIS E TURISMO International Journal of Hospitality Management A1 0958-5192 ADMINISTRAÇÃO, CIÊNCIAS CONTÁBEIS E TURISMO

E nessa incursão, é válido mencionar, os sujeitos – sejam os do ensino (aluno e professor), sejam eles os aqui constituídos em objetos de investigação –

Grundfos GO rakenduse Apple iOS seadmele saab tasuta alla laadida või seda saab tasuta uuendada Apple'i App Store'i kaudu. Minge Apple'i

Além disso, dentre as diferentes cultivares, a banana ‘maça’ é a que apresenta maior problemas de manutenção da qualidade pós-colheita devido a deterioração fisiológica

A Secretaria Municipal de Mobilidade e Transportes, por meio da CET – Companhia de Engenharia de Tráfego elaborará esquema especial objetivando a operação de trânsito durante

O Presidente da Comissão Técnica Nacional de Biossegu- rança - CTNBio, no uso de suas atribuições e de acordo com o artigo 14, inciso XIX, da Lei 11.105/05; do Artigo 5º, inciso XIX

c) apresentação dos documentos comprovando a escolaridade e demais requisitos exigidos para o cargo;.. 11.1.1 - O candidato deverá fazer prova dos documentos e das condições