• Nenhum resultado encontrado

Futuros estudos genéticos mais ambiciosos, como sequenciamento completo de genomas de centenas de indivíduos, podem gerar volumes de dados acima da capacidade de armazenamento dos ambientes computacionais privados. Os custos de manutenção e investimentos em armazenamento local podem se tornar inviável. A terceirização do sequenciamento das amostras tem levado a um custo extra para transferir os arquivos da Internet para um servidor local.

Serviços de armazenamento de dados em nuvem podem ser uma solução com melhor custo-benefício desde que os dados originais transferidos para o serviço não sejam copiados integralmente para fora do serviço. Para isso é necessário realizar o processamento no mesmo ambiente de nuvem. Com as etapas de transformação e redução dos dados, apenas os arquivos de resultados seriam copiados reduzindo o custo relacionado a transferência. O ecossistema proposto pode ser adaptado para serviços de computação em nuvem. Os protocolos reprodutíveis permitiriam remover arquivos intermediários seguramente diminuindo o custo de armazenamento a longo prazo. A natureza sob demanda dos serviços de nuvem permitirá escalar o ecossistema para executar tarefas de processamento independentes em paralelo acelerando a pesquisa genômica. A Figura 19 apresenta como computação em nuvem pode expandir as capacidades de processamento.

Figura 19 – Visão geral do ecossistema adaptado para computação em nuvem (Google Cloud como exemplo). Programas de automação como Espresso- Caller podem ser executados no ambiente computacional do BCBLab através do RNNR e escalar para serviços de nuvem sem alterar o programa ou os protocolos. Adaptado de (68).

As alterações previstas no ecossistema para dar suporte à computação em nuvem são: implementar suporte a sistemas de arquivos em nuvem para os programas de automação (Espresso-Caller); configurar o sistema gerenciador de workflows (Cromwell) para submeter as tarefas de processamento a nuvem. Para serviços de nuvem que Cromwell não suporta oficialmente, RNNR pode ser utilizado como referência para implementação de um sistema intermediário para gerenciamento e execução de tarefas de processamento o serviço de nuvem especificado.

CONCLUSÃO

A utilização de uma linguagem de descrição de programas de bioinformática e workflows de processamento de dados genômicos, combinado com soluções de computação em nuvem, permitiu alcançar alto grau de reprodutibilidade dos estudos genômicos realizados pelo nosso grupo de pesquisa.

As Imagens de aplicativos facilitaram a configuração de programas de bioinformática em diferentes ambientes computacionais e diminuiu os riscos de gerar resultados discrepantes através do isolamento das aplicações e suas versões. A linguagem WDL possibilitou separarmos a descrição dos workflows e programas bioinformática do ambiente de execução, flexibilizando a seleção de programas de diferentes portes e complexidades conforme a demanda de processamento. A separação entre descrições de protocolos de seus parâmetros de entrada permitiu a reutilização dos workflows em conjuntos de dados de diferentes estudos.

A nossa capacidade de reproduzir as atividades de processamento de dados genômicos e análise estatística de um estudo possibilitou diminuir a demanda de armazenamento de arquivos temporários. Uma vez que mantemos os arquivos de sequenciamento iniciais, todos os parâmetros de entrada dos programas e versões estáticas desses mesmos programas, podemos remover arquivos temporários e criando-os novamente quando necessário. Dessa forma, passamos a utilizar melhor nosso ambiente computacional economizando tempo de processamento e armazenamento.

A estratégia desenvolvida para processamento de dados genômicos, utilizando apenas de arquivos texto puro e programas de código aberto que seguem padrões aceitos pela comunidade internacional, facilitou os processos de documentação e comunicação cientifica.

REFERÊNCIAS

1. Metzker ML. Sequencing technologies - the next generation. Nat Rev Genet. janeiro de 2010;11(1):31–46.

2. Cock PJA, Fields CJ, Goto N, Heuer ML, Rice PM. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Res. abril de 2010;38(6):1767–71.

3. Goodwin S, McPherson JD, McCombie WR. Coming of age: Ten years of next-generation sequencing technologies. Nat Rev Genet. 17 de maio de 2016;17(6):333–51.

4. Warr A, Robert C, Hume D, Archibald A, Deeb N, Watson M. Exome sequencing: Current and future perspectives. G3: Genes, Genomes, Genetics. 2 de julho de 2015;5(8):1543–50.

5. Bamshad MJ, Ng SB, Bigham AW, Tabor HK, Emond MJ, Nickerson DA, et al. Exome sequencing as a tool for Mendelian disease gene discovery. Nat Rev Genet. 27 de setembro de 2011;12(11):745–55.

6. Foo JN, Liu JJ, Tan EK. Whole-genome and whole-exome sequencing in neurological diseases. Nat Rev Neurol. setembro de 2012;8(9):508–17. 7. Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for

transcriptomics. Nat Rev Genet. janeiro de 2009;10(1):57–63.

8. Ozsolak F, Milos PM. RNA sequencing: Advances, challenges and opportunities. Nat Rev Genet. fevereiro de 2011;12(2):87–98.

9. Yong W-S, Hsu F-M, Chen P-Y. Profiling genome-wide DNA methylation. Epigenetics Chromatin. 29 de dezembro de 2016;9(1):26.

10. Pop M, Salzberg SL. Bioinformatics challenges of new sequencing technology. Trends Genet. março de 2008;24(3):142–9.

11. Baker M. Next-generation sequencing: adjusting to data overload. Nat Methods. 1o de julho de 2010;7(7):495–9.

12. Reuter JA, Spacek DV, Snyder MP. High-Throughput Sequencing Technologies. Mol Cell. 21 de maio de 2015;58(4):586–97.

13. Secolin R, Mas-Sandoval A, Arauna LR, Torres FR, de Araujo TK, Santos ML, et al. Distribution of local ancestry and evidence of adaptation in admixed populations. Sci Rep. 25 de setembro de 2019;9(1):13900.

14. Rocha CS, Secolin R, Rodrigues MR, Carvalho BS, Lopes-Cendes I. The Brazilian Initiative on Precision Medicine (BIPMed): fostering genomic data-sharing of underrepresented populations. npj Genomic Medicine. 2 de outubro de 2020;5(1):42.

15. Sboner A, Mu XJ, Greenbaum D, Auerbach RK, Gerstein MB. The real cost of sequencing: higher than you think! Genome Biol. 25 de agosto de 2011;12(8):125.

16. Hawkins RD, Hon GC, Ren B. Next-generation genomics: an integrative approach. Nat Rev Genet. 8 de julho de 2010;11(7):476–86.

17. Stephens ZD, Lee SY, Faghri F, Campbell RH, Zhai C, Efron MJ, et al. Big Data: Astronomical or Genomical? PLoS Biol. 7 de julho de

2015;13(7):e1002195.

18. Wilkinson MD, Dumontier M, Aalbersberg IJJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 15 de dezembro de 2016;3(1):160018.

19. Leeka JT, Peng RD. Opinion: Reproducible research can still be wrong: Adopting a prevention approach. Proc Natl Acad Sci U S A. 10 de fevereiro de 2015;112(6):1645–6.

20. Peng RD. Reproducible Research in Computational Science. Science. 2 de dezembro de 2011;334(6060):1226–7.

21. Garijo D, Kinnings S, Xie L, Xie L, Zhang Y, Bourne PE, et al. Quantifying Reproducibility in Computational Biology: The Case of the Tuberculosis Drugome. Ouzounis CA, organizador. PLoS One. 27 de novembro de 2013;8(11):e80278.

22. Piccolo SR, Frampton MB. Tools and techniques for computational reproducibility. Gigascience. 11 de julho de 2016;5(1):1–13.

23. Merkel D. Docker: Lightweight Linux Containers for Consistent Development and Deployment. Linux J. 2014;2014(239):2–7.

24. Nickoloff J, Kuenzli S. Docker in Action. Second. Manning Publications; 2019. 350 p.

25. da Veiga Leprevost F, Grüning BA, Alves Aflitos S, Röst HL, Uszkoreit J, Barsnes H, et al. BioContainers: an open-source and community-driven framework for software standardization. Bioinformatics. 15 de agosto de 2017;33(16):2580–2.

26. Di Tommaso P, Palumbo E, Chatzou M, Prieto P, Heuer ML, Notredame C. The impact of Docker containers on the performance of genomic pipelines. PeerJ. 24 de setembro de 2015;3(9):e1273.

27. Boettiger C. An introduction to Docker for reproducible research. Oper Syst Rev. 20 de janeiro de 2015;49(1):71–9.

28. Nekrutenko A, Taylor J. Next-generation sequencing data interpretation: enhancing reproducibility and accessibility. Nat Rev Genet. 17 de

setembro de 2012;13(9):667–72.

29. Koster J, Rahmann S. Snakemake--a scalable bioinformatics workflow engine. Bioinformatics. 1o de outubro de 2012;28(19):2520–2.

30. Amstutz P, Crusoe MR, Tijanić N, Chapman B. Common workflow language, v1. 0. 2016; Disponível em:

https://www.research.manchester.ac.uk/portal/en/publications/common- workflow-language-v10(741919f5-d0ab-4557-9763-

b811e911423b)/publications.html

31. Vivian J, Rao AA, Nothaft FA, Ketchum C, Armstrong J, Novak A, et al. Toil enables reproducible, open source, big biomedical data analyses. Nat Biotechnol. 11 de abril de 2017;35(4):314–6.

32. Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow enables reproducible computational workflows. Nat

33. Grüning B, Dale R, Sjödin A, Chapman BA, Rowe J, Tomkins-Tinch CH, et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nat Methods. julho de 2018;15(7):475–6.

34. Kurtzer GM, Sochat V, Bauer MW. Singularity: Scientific containers for mobility of compute. PLoS One. 11 de maio de 2017;12(5):e0177459.

35. Auwera GA, Carneiro MO, Hartl C, Poplin R, del Angel G, Levy‐Moonshine A, et al. From FastQ Data to High‐Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline. Curr Protoc Bioinformatics

[Internet]. 15 de outubro de 2013;43(1). Disponível em:

https://onlinelibrary.wiley.com/doi/abs/10.1002/0471250953.bi1110s43

36. Gentry J. TESting, TESting, 1 2 3 [Internet]. GATK-Forum. 2017. Disponível em:

https://gatkforums.broadinstitute.org/wdl/discussion/9219/testing-testing-1- 2-3

37. Global Alliance for Genomics and Health. Task Execution Service (TES) API [Internet]. Github; Disponível em: https://github.com/ga4gh/task- execution-schemas

38. Altshuler DM, Durbin RM, Abecasis GR, Bentley DR, Chakravarti A, Clark AG, et al. An integrated map of genetic variation from 1,092 human

genomes. Nature. 1o de novembro de 2012;491(7422):56–65.

39. Auton A, Abecasis GR, Altshuler DM, Durbin RM, Bentley DR, Chakravarti A, et al. A global reference for human genetic variation. Nature. 1o de

outubro de 2015;526(7571):68–74.

40. Yang A, Troup M, Ho JWK. Scalability and Validation of Big Data Bioinformatics Software. Comput Struct Biotechnol J. 20 de julho de 2017;15:379–86.

41. Mell P, Grance T, Others. The NIST definition of cloud computing

[Internet]. Computer Security Division, Information Technology Laboratory, National …; 2011. Disponível em:

https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800- 145.pdf

42. Cendes LL, de Souza W, Lopes-Cendes I, Carvalho BS. HPexome: An automated tool for processing whole-exome sequencing data. SoftwareX. 1o de janeiro de 2020;11:100478.

43. Herman K. Scatter-Gather Parallelism [Internet]. Terra Support. 2020. Disponível em: https://support.terra.bio/hc/en-

us/articles/360037128572?id=6716%0A

44. Love MI, Huber W, Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol.

2014;15(12):550.

45. Robinson MD, McCarthy DJ, Smyth GK. edgeR: A Bioconductor package for differential expression analysis of digital gene expression data.

Bioinformatics. 1o de janeiro de 2010;26(1):139–40.

46. Liao Y, Smyth GK, Shi W. FeatureCounts: An efficient general purpose program for assigning sequence reads to genomic features.

Bioinformatics. 1o de abril de 2014;30(7):923–30.

47. Tam S, Tsao MS, McPherson JD. Optimization of miRNA-seq data preprocessing. Brief Bioinform. novembro de 2015;16(6):950–63.

48. Akhtar MM, Micolucci L, Islam MS, Olivieri F, Procopio AD. Bioinformatic tools for microRNA dissection. Nucleic Acids Res. 8 de janeiro de

2016;44(1):24–44.

49. Li H, Durbin R. Fast and accurate short read alignment with Burrows- Wheeler transform. Bioinformatics. 15 de julho de 2009;25(14):1754–60.

50. Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory- efficient alignment of short DNA sequences to the human genome. Genome Biol. 4 de março de 2009;10(3):R25.

51. Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. STAR: Ultrafast universal RNA-seq aligner. Bioinformatics. 1o de janeiro

52. Hansen KD, Langmead B, Irizarry RA. BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions. Genome Biol. 3 de outubro de 2012;13(10):R83.

53. Akalin A, Kormaksson M, Li S, Garrett-Bakelman FE, Figueroa ME,

Melnick A, et al. MethylKit: a comprehensive R package for the analysis of genome-wide DNA methylation profiles. Genome Biol. 3 de outubro de 2012;13(10):R87.

54. de Souza W. Análise e desenvolvimento de protocolos em bioinformática para estudos de epigenética [Internet]. Universidade Estadual de

Campinas; 2016. Disponível em:

http://www.repositorio.unicamp.br/handle/REPOSIP/312724

55. Krueger F, Kreck B, Franke A, Andrews SR. DNA methylome analysis using short bisulfite sequencing data. Nat Methods. 30 de janeiro de 2012;9(2):145–51.

56. Bock C. Analysing and interpreting DNA methylation data. Nat Rev Genet. outubro de 2012;13(10):705–19.

57. Wreczycka K, Gosdschan A, Yusuf D, Grüning B, Assenov Y, Akalin A. Strategies for analyzing bisulfite sequencing data. J Biotechnol. 10 de novembro de 2017;261(August):105–15.

58. Poplin R, Ruano-Rubio V, DePristo MA, Fennell TJ, Carneiro MO, Van der Auwera GA, et al. Scaling accurate genetic variant discovery to tens of thousands of samples. bioRxiv. 1o de janeiro de 2018;201178.

59. Li H, Durbin R. Fast and accurate long-read alignment with Burrows- Wheeler transform. Bioinformatics. 1o de março de 2010;26(5):589–95.

60. McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, et al. The Genome Analysis Toolkit: A MapReduce framework for

analyzing next-generation DNA sequencing data. Genome Res. 1o de

61. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 15 de agosto de 2009;25(16):2078–9.

62. Fritz MHY, Leinonen R, Cochrane G, Birney E. Efficient storage of high throughput DNA sequencing data using reference-based compression. Genome Res. maio de 2011;21(5):734–40.

63. Danecek P, Auton A, Abecasis G, Albers CA, Banks E, DePristo MA, et al. The variant call format and VCFtools. Bioinformatics. 1o de agosto de

2011;27(15):2156–8.

64. Obenchain V, Lawrence M, Carey V, Gogarten S, Shannon P, Morgan M. VariantAnnotation: a Bioconductor package for exploration and annotation of genetic variants. Bioinformatics. 15 de julho de 2014;30(14):2076–8. 65. Fiume M, Cupak M, Keenan S, Rambla J, de la Torre S, Dyke SOM, et al.

Federated discovery and sharing of genomic data using Beacons. Nat Biotechnol. 4 de março de 2019;37(3):220–4.

66. de Souza W, Carvalho BS. BraVE - BIPMed Variant Explorer [Internet]. 2020 [citado 21 de julho de 2020]. Disponível em:

https://bipmed.org/brave/

67. Donovan AAA, Kernighan BW. The go programming language. Addison- Wesley Professional; 2015. 400 p.

68. GATK Team. Pipelining GATK with WDL and Cromwell [Internet]. GATK. 2020 [citado 21 de julho de 2020]. Disponível em:

https://gatk.broadinstitute.org/hc/en-us/articles/360035889771-Pipelining- GATK-with-WDL-and-Cromwell

ANEXOS

Documentos relacionados