• Nenhum resultado encontrado

Microsoft PowerPoint - Novas Técnicas de Assembly NGS

N/A
N/A
Protected

Academic year: 2021

Share "Microsoft PowerPoint - Novas Técnicas de Assembly NGS"

Copied!
36
0
0

Texto

(1)

Novas Técnicas de Assembly NGS

Prof. Dr. Rodrigo Matheus Pereira

(2)



Next generation Sequence – NGS



454 – Pirosequenciamento – Roche



Solid – Aplied Biosystems

 Sequências com 50 a 75 pb

30 a 50 Gb em aprox. 7 a 14 dias

Novas Técnicas de Assembly NGS

 30 a 50 Gb em aprox. 7 a 14 dias



Solexa – Illumina

 Sequências variando de aprox. 2x100 (2x150)  Varia de acordo com o kit

 500 Gb aprox. 4 a 9 dias



Ion Torrent – Life Technologies

(3)



Solid – Color space

(4)



454 – Pirosequenciamento – Roche

 O primeiro a ser comercializado (2004)

 Produz sequências mais longas que as demais

plataformas (aprox. : 500 pb) (700 a 800)

Novas Técnicas de Assembly NGS

plataformas (aprox. : 500 pb) (700 a 800)

 Aprox. 0,45 Gb por corrida em 8 horas  Problema com homopolímeros

(5)



Características gerais



Três estágios para sequenciar:

 Preparar a biblioteca  Amplificar o alvo

Novas Técnicas de Assembly NGS

Amplificar o alvo

(6)



454 – Pirosequenciamento – Roche

(7)



454 – Pirosequenciamento – Roche

Novas Técnicas de Assembly NGS

(8)

Novas Técnicas de Assembly NGS

(9)



Solexa- Illumina

(10)



Solid – Applied

(11)
(12)



Formato fastQ

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

Novas Técnicas de Assembly NGS

IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

1)@ iniciando a identificação da sequência 2)Sequência de nucleotídeos

3)Inicia com o sinal +, pode ou não ser seguido da novamente de identificação 4) Caracteres que representam a qualidade da sequência

(13)

 Formato fastQ  @SRR060738.1.2 F4JY4N303HF31N.2 length=439  TTTGGCTGTTGGACCACTGCTGCCATTCGTATAACTTCGTATAATGTATGCT ATACGAAGTTATTACGGGTACTTTGTCGTACAATTTGTTCATTGTCAGTTCC GCAAGGCGATGATCAACTGCAGAGTTGAATGCTTCTATTTTATCTGAGGTC AAAGTGCCCTGGTTTTTAGCAATAATTTTCTCAAGTGTCTTTAAGCTGGAA CAGCGACGTAACTGATAATACGGCATAAGCTATGTGTTGTTGCAAACAAAA GCCGGCTCATCTGAACCGGCAGTTATGGAGGCTGCTTATCTTAAAATACTT CAGCTACAGGCATACCTGCAATCTGCTCCCACTCCTTACGCTTTTCCTGA

Novas Técnicas de Assembly NGS

CAGCTACAGGCATACCTGCAATCTGCTCCCACTCCTTACGCTTTTCCTGA ATCAGGCGAGGAAAGTCGACAGGGTAATCATATCCTCGACTTGCCATTGC TGAGACTGCCAAGGCACACAGGGGGATAGGN  +SRR060738.1.2 F4JY4N303HF31N.2 length=439  HHHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHHIIIHHHIIIIIIE;;566?>IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIIIIIIIAAAAIIIIIIIIIIHHHIII;;;III99997GEGEDH@E3335?8EEEIIIIIHHHIIII IIIIIIIIIIIH????IIIIIHHHI???IIIIIIIIIIIIIIIIIIEGBEC?21119BEEEEEEEIIIIIIIIIIIIHHHHIIIIIIIIIIC CDIIIIAA@@HCIIIDDDHIIIIIIIIIIIIIIIIIIIIIIH===?CIIIEEIIIH9999HHDIIIIIIIIIIH?????FIII IIE799?IIIIIIIIIIHHHHHIIIIHDCCHHIIIIIIIIHHHA@@??>>?8----,38688!

(14)



Tipos de alinhamento?



Alinhamento local



Alimento semi-global



Alinhamento local

Novas Técnicas de Assembly NGS



Alinhamento local

(15)



Algoritmos para montagem

Três categorias (baseadas em grafos)



–Overlap/Layout/Consensus(OLC)

•grafo de sobreposições;

Novas Técnicas de Assembly NGS

•grafo de sobreposições;



–de BruijnGraphs(DBG)

•grafo de sobreposição de sufixo-prefixo de k-mers;



–Greedygraphs

(16)



Grafo



Grafo é uma estrutura G(V,A) onde V é um conjunto

não vazio de objetos denominados nós ou vértices

(nodes/vertices) e A é um conjunto de pares não

ordenados de V, chamado arestas ou arcos (edges/arcs).

Novas Técnicas de Assembly NGS

ordenados de V, chamado arestas ou arcos (edges/arcs).





Nós (vértices): V = {U, V, W, X, Y, Z}



Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j}



(17)



grafos de-Bruijn



Grafos k-mer

–nós – todas as subsequências de tamanho k;

–arestas – todas as sobreposições (k-1 bases)

Novas Técnicas de Assembly NGS

–arestas – todas as sobreposições (k-1 bases)

entre essas subsequências que são

consecutivas na sequência original;

–Pode representar as múltiplas sequências das

leituras e implicitamente as sobreposições;

(18)



Grafos de-Bruijn

Novas Técnicas de Assembly NGS

(19)



Características dos grafos k-mers



Em geral



–A montagem é um problema de redução de grafos.



•NP-difíceis, não há uma solução eficiente

Novas Técnicas de Assembly NGS



•NP-difíceis, não há uma solução eficiente

conhecida;



•Utilização de heurísticas: reduzir a redundância,

reparar erros, reduzir a complexidade, alargar

caminhos simples e simplificar o grafo;

(20)



Características dos grafos k-mers



Vantagens



–Desenvolvidos para lidar com a alta complexidade

e o grande volume de dados dos NGS;

Novas Técnicas de Assembly NGS

e o grande volume de dados dos NGS;



–Rápida detecção de k-mers compartilhados - reduz

custo computacional em relação à busca de

sobreposições em alinhamentos pareados;



•Não necessita comparações pareadas (todas x

(21)



Características dos grafos k-mers



Desvantagens



–Usam muita memória (tabela hashk-mers);

 100 a 200 gigas



–Mais sensível a repetições e a erros de

Novas Técnicas de Assembly NGS



–Mais sensível a repetições e a erros de

sequenciamento;



–Porém

perde algumas sobreposições verdadeiras

,

dependendo do:



•tamanho de k



•tamanho da sobreposição



•taxa de erro nas leituras

(22)



Tamanho de k

Tamanho de k: não pode ser nem muito grande, nem muito

pequeno:

Novas Técnicas de Assembly NGS

–grande o suficiente para não pegar falsas sobreposições que

compartilham k-mers por acaso;

–pequeno o suficiente para que muitas sobreposições

verdadeiras compartilhem k-mers;

(23)



Problemas dos grafos de-Bruijn

 Sequências palíndromes (idêntica à reversa complementar)

induz a caminhos que retornam a si (k=4; ACGT = ACGT); –ex.: utilização de um k ímpar (k=5; ACGTA ≠ TACGT) evita esse

Novas Técnicas de Assembly NGS

–ex.: utilização de um k ímpar (k=5; ACGTA ≠ TACGT) evita esse tipo de ocorrência;

 •Erros de sequenciamento;

–ex.: pesar os vértices pelo número de leituras que lhes dão suporte auxilia na identificação de erros;

(24)



Complexidades em k-mers

 Ramificações – caminhos sem-saídas divergentes;  –Induzidos por erros no sequenciamentonas extremidades

das leituras;

(25)



Complexidades em k-mers

 Bolhas–caminhos que divergem e depois convergem;

–Induzidos por erros no sequenciamentono meio das leituras;

(26)

 Complexidades em k-mers

 Corda esfiapada –caminhos que convergem e divergem;

–Induzidos por repetições;

(27)



Complexidades em k-mers

 Ciclos–caminhos que convergem neles mesmos;

–Induzidos por repetições (e.g.repetições em tandem–pequenos ciclos);

(28)



Exemplo



Grafo completo

(29)



Após simplificação...

(30)



Após remoção de tips (erros do sequenciamento)

(31)



Após remoção de bolhas

(32)



Simplificação final

(33)



Softwares montadores (de-Bruijn)

–VELVET /Oases(http://www.ebi.ac.uk/~zerbino/velvet/)

•genomas, cDNAs

•Solexa, SOLiD, 454

•(Zerbino, D.R.e BirneyE., 2008)

Novas Técnicas de Assembly NGS

•(Zerbino, D.R.e BirneyE., 2008)



–ABySS/Trans-ABySS(http://www.bcgsc.ca/platform/bioinfo/software/abyss)



•genomas, cDNAs



•Solexa, SOLiD

(34)



Softwares montadores NGS

 Mira3 (454)

chevreux.org/projects_mira.html

 Newbler (Roche)

Novas Técnicas de Assembly NGS



Extensa lista de softwares para NGS

(35)



NGS segunda geração e terceira geração



Pacific biosciences



Oxford nanopore



Características

Novas Técnicas de Assembly NGS



Características

 Sequenciamento não necessita de amplificação  Gera reads muito longos 2 a 3 mil pb

(36)



Bibliografia

 Miller JR, KorenS, Sutton G. Assembly algorithms for next-generation sequencing

data. Genomics. 2010 Jun;95(6):315-27. Epub2010 Mar 6. Review. PubMed PMID: 20211242; PubMed Central PMCID: PMC2874646;

 Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de

Bruijn graphs. Genome Res. 2008 May;18(5):821-9. Epub2008 Mar 18. PubMed PMID: 18349386; PubMed Central PMCID: PMC2336801;

Novas Técnicas de Assembly NGS

PMID: 18349386; PubMed Central PMCID: PMC2336801;

 Metzecker, M.L. Sequencing technologies — the next generation. Nature Review 2009, vol.

11, janeiro 2012, pag. 31

 Loman, N. J. et al. High-throughput bacterial genome sequencing: an embarrassment of

choice, a world of opportunity, Nature Review Microbiology 2012, 6 August 2012; doi:10.1038/nrmicro2850

 Carvalho, M.C.C.G. e Silva, D.C.G. Sequenciamento de DNA de nova geração e suas

aplicações na genômica de plantas, Ciência Rural, Santa Maria, v.40, n.3, p.735-744, mar, 2010.

Referências

Documentos relacionados

c) apresentação dos documentos comprovando a escolaridade e demais requisitos exigidos para o cargo;.. 11.1.1 - O candidato deverá fazer prova dos documentos e das condições

0278-4319 ADMINISTRAÇÃO, CIÊNCIAS CONTÁBEIS E TURISMO International Journal of Hospitality Management A1 0958-5192 ADMINISTRAÇÃO, CIÊNCIAS CONTÁBEIS E TURISMO

E nessa incursão, é válido mencionar, os sujeitos – sejam os do ensino (aluno e professor), sejam eles os aqui constituídos em objetos de investigação –

da emissão do boleto, bem como os prazos, e não analise somente o valor da prestação, pois você poderá pagar caro pelo produto adquirido. Se tiver dúvida sobre as taxas

Grundfos GO rakenduse Apple iOS seadmele saab tasuta alla laadida või seda saab tasuta uuendada Apple'i App Store'i kaudu. Minge Apple'i

Além disso, dentre as diferentes cultivares, a banana ‘maça’ é a que apresenta maior problemas de manutenção da qualidade pós-colheita devido a deterioração fisiológica

A Secretaria Municipal de Mobilidade e Transportes, por meio da CET – Companhia de Engenharia de Tráfego elaborará esquema especial objetivando a operação de trânsito durante

O Presidente da Comissão Técnica Nacional de Biossegu- rança - CTNBio, no uso de suas atribuições e de acordo com o artigo 14, inciso XIX, da Lei 11.105/05; do Artigo 5º, inciso XIX