• Nenhum resultado encontrado

Parte 1: Os desafios encontrados no compartilhamento de dados das ciências ômicas

O compartilhamento de dados gerados a partir das ciências ômicas permite que outros pesquisadores tenham acesso a esses dados e são importantes em todos os campos da pesquisa científica, com inúmeras vantagens aqui discutidas (26). O compartilhamento aumenta a visibilidade dos dados, permitindo sua análise por diferentes grupos com diferentes backgrounds, o que pode gerar novas descobertas a partir de visões distintas da ciência; ele evita a geração de conjuntos de dados equivalentes; é mais justo com a sociedade que patrocina as pesquisas ao não deixar os dados sob custódia de grupos individuais; contribui para os esforços a favor da reprodutibilidade; promove o desenvolvimento de novas ferramentas computacionais; e pode ser uma das poucas formas de se obter conclusões robustas sobre doenças complexas e multifatoriais como as doenças cardiovasculares, o câncer, o diabetes e as demências, que após anos de pesquisa, parecem não estar associadas a alterações pontuais no genoma. Neste sentido, esforços no sentido de promover o compartilhamento de dados de forma segura e responsável são essenciais para o desenvolvimento da ciência.

No entanto, os desafios ainda são amplos, como também já discutido por nós. Eles envolvem dimensões técnicas, computacionais, e financeiras, mas também culturais, éticas e legais (23,175–177). Ao longo de nosso trabalho, discutimos estes desafios, e pela forma como estes temas foram abordados neste manuscrito, não iremos revisitar estas questões de forma detalhada novamente.

De forma muito resumida, os desafios técnicos, computacionais e financeiros envolvem o desenvolvimento de bases de dados capazes de armazenar e facilitar a busca e o uso destes dados, o que exige uma estrutura computacional (hardware e software) complexa e de alto custo. A disponibilidade de pessoal experiente para gerar e manter esta estrutura é um problema importante, particularmente relevante em nosso meio. Importante

citar aqui que o profissional ideal deve apresentar conhecimento não apenas em computação e programação, mas também em biologia e nas técnicas utilizadas para geração de dados. Ainda na área técnica e computacional, a segurança das bases tanto quanto à garantia da privacidade dos sujeitos que cederam suas amostras, e os créditos para os seus geradores são também desafios importantes. A ampla heterogeneidade dos tipos de dados que são gerados em pesquisa – variando de dados genômica, até imagens radiológicas e textos livres de observação clínica, são desafios à geração de bases de dados e principalmente a sua integração, que vimos como essencial para que os maiores benefícios para a pesquisa sejam obtidos.

Universidades brasileiras, em particular no estado de São Paulo com apoio da FAPESP já assumiram compromissos com o objetivo de promover o compartilhamento de dados. Citamos em particular a exigência da FAPESP de que novos projetos contenham um plano de gestão de dados, que tem como um dos benefícios garantir que esta questão passe a ser pelo menos contemplada por pesquisadores, e que pode garantir algum grau de homogeneidade na forma de organização dos dados no futuro (178).

No entanto, o foco principal deste trabalho foi dado ao chamado desafio cultural, que consiste no desconhecimento das possibilidades de aplicação destas ferramentas na pesquisa (10,179). Entendemos ser este um importante entrave para que mais grupos se apropriem do uso desta tecnologia, o que contribuiria inclusive para ampliar a discussão e o rol de soluções para os demais desafios. A dispersão dos dados em diferentes bases e ferramentas, o uso de um jargão pouco conhecido por pesquisadores da área biológica, e o desconhecimento sobre o potencial de uso destes dados são ao nosso ver entraves menos abordados na literatura, que acreditamos que nossos esforços de revisão e sistematização possam de alguma forma contribuir.

Parte 2: Tromboses venosas e arteriais: introduzindo a perspectiva transcriptômica na análise comparativa

Apesar de ambas as tromboses venosas e arteriais serem ocasionadas pela formação de trombos dento de um vaso essas condições estão

associadas a vias fisiopatológicas distintas, sendo a DCV ligada à aterosclerose (148) e o TEV aos elementos clássicos da Tríade de Virchow (114,180). A compreensão da interação entre a hemostasia e inflamação, e dos dados clínicos e epidemiológicos associando as duas condições criaram espaço para estudos adicionais abordando suas diferenças e semelhanças no nível celular e molecular (181).

Embora os mecanismos fisiopatológicos sejam distintos, os dados epidemiológicos indicam que o TEV e a DCV compartilham alguns mecanismos (181,182) como ilustrado por um estudo que revelou que pacientes com TEV não provocado apresentam um risco estimado de aterosclerose 5,1 e 14,5 vezes maior do que em pacientes com TEV secundário e controles saudáveis respectivamente (182,183), pela ocorrência de condições que aumentam o risco de TEV e DCV, como a anemia falciforme (184,185) e por uma quantidade crescente de dados experimentais revelando a interface entre o sistema imunológico e a hemostasia (131) e entre hemostasia e aterogênese (181,186,187). Finalmente as fronteiras clássicas entre DCV, TEV e a inflamação se tornaram ainda mais incertas pelos resultados obtidos em ensaios clínicos de larga escala. Primeiro, a aspirina mostrou diminuir o risco de TEV recorrente (188,189). Segundo, a rivaroxabana um anticoagulante anti- fator Xa mostrou diminuir o risco de DCV recorrente de forma mais eficaz do que a aspirina (152). E por último uso de um inibidor da IL-1 também foi eficaz na redução do risco de DCV recorrente (190). Juntos, esses dados destacam as lacunas existentes na compreensão de mecanismos patogênicos comuns e divergentes de TEV e DCV, que nossos dados pretendiam abordar.

Usando uma abordagem de bioinformática integrativa, analisamos cinco conjuntos de dados independentes de expressão gênica e geramos duas listas distintas de genes que são comumente (n = 472) ou divergentemente (n = 124) expressos em VTE e CVD. Entre os genes comumente expressos, observou-se uma predominância de genes associados à imunidade inata. Estes incluíram genes que foram previamente associados com DCV em estudos em humanos, tais como PTX3 (pentraxina 3) (191–193) e S100A12 (EN-RAGE) (194,195), bem como genes que foram associados com DCV em estudos com animais, como ANXA3 e SLPI ambos mostraram ser regulados positivamente em

modelos de roedores com acidente vascular cerebral isquêmico (196,197). Nossa meta-análise também identificou um gene comumente regulado para baixo o ID3 (Inhibitor Of DNA Binding 3, HLH Protein) que é ateroprotetor em modelos animais (198) e cujos polimorfismos funcionais têm sido associados à proteção da aterosclerose em diversos estudos populacionais (198,199). Em relação ao TEV, o gene TBX21 (T-Box 21) que foi comumente regulado para baixo em nosso estudo foi recentemente associado à resolução de TEV em modelo animal (200). Embora menos frequente os genes que estão mais diretamente associados à hemostasia também foram identificados, como a SERPINB2 (inibidor do ativador do plasminogênio 2) cujos polimorfismos têm sido associados com DCV recorrente (201). O padrão observado na análise dos genes DE individuais foi confirmado pela análise do conjunto de genes que identificou vias associadas à hemostasia e imunidade inata como as mais consistentemente associadas à assinatura gênica de TEV e DCV. Destacamos que vias cujas associações com o diagnóstico de patogênese e até mesmo tratamento de TVP/DCV foram reveladas apenas recentemente, como sinalização de IL-1 e imunidade mediada por neutrófilos, surgiram com fortes associações em nosso modelo. Em conjunto, argumentamos que esses resultados são de interesse pelas seguintes razões: primeiro, eles representam uma confirmação de que a participação da imunidade inata e hemostasia na fisiopatologia de TEV e DCV também é evidente no nível transcricional, sendo esta a primeira demonstração formal desta afirmação; em segundo lugar, genes e vias identificados em nosso estudo permitem novos insights sobre a fisiopatologia compartilhada de TEV e DCV ao nível celular e molecular; e terceiro eles confirmam que a estratégia experimental usada neste estudo exploratório (ou seja, seleção de banco de dados públicos, e o conjunto de métodos de bioinformática) é realmente capaz de identificar informações relevantes de diferentes conjuntos de dados amplos e complexos.

Assim, acreditamos que os genes identificados em nossa análise devem ser vistos como potenciais biomarcadores a serem testados em estudos futuros sobre a associação de TEV e DCV. Além disso, genes e vias para os quais não foram ainda demonstradas associações fortes com DCV ou TEV também poderiam ser alvos atraentes para estudos futuros. Em particular, gostaríamos

de destacar o fato de que a ativação da protrombina pela via intrínseca, a ativação do complemento e a função neutrofílica foram todas identificadas como relevantes para a patogênese dessas condições, o que está de acordo com conceitos relativamente recentes sobre a associação evolutiva entre hemostasia e trombose (202–205). A identificação de BACH1 e BACH2 que estão envolvidos no metabolismo do heme é também de interesse, uma vez que nosso grupo e outros autores vêm mostrando que o heme é um potencial ativador da hemostasia (81,206,207).

Neste contexto, a exploração da lista de genes que foram expressos de forma divergente também pode ser interessante. Neste caso, optamos por analisá-la identificando vias que foram super-representadas em TEV em relação às DCV e vice-versa (ou seja, divergentes). O resultado mais significativo foi a identificação de várias vias relacionadas com os neutrófilos nas DCV quando comparado com o TEV, sugerindo um papel mais proeminente para essas células no primeiro que no segundo. Além disso, quase metade (24/53) dos genes que foram regulados positivamente em CVD em comparação com VTE são expressos por neutrófilos de acordo com uma base de dados de RNA-seq compreendendo mais de 80.000 amostras humanas (208). Destes, alguns já foram associados com DCV em modelos animais (MCL1, JUND, PELI1) (209–211) e em humanos (ACSL1, AOC3, ALPL, MMP9, PPIF, GRK2) (212–219). Também de interesse foi a identificação de PADI4 uma enzima crítica para a formação de armadilhas extracelulares de neutrófilos (Li et al. 2010), que foi previamente associada a outros fenótipos vasculares relacionados em modelos animais (220,221).

Um aspecto que merece ser discutido é o achado de vias e genes relacionados a neutrófilos como relevantes em nossa meta-análise, mesmo com bases de dados que utilizam células mononucleares como fonte de RNA. Especulamos que este resultado pode ser explicado por fatores como a contaminação das amostras de células mononucleares por neutrófilos, associado ao fato de que a função dos neutrófilos é regulada por moléculas expressas por outras células como macrófagos, monócitos, subpopulações de linfócitos, plaquetas e células endoteliais (222–224), cujas assinaturas de expressão gênica podem ser capturadas nas amostras de RNA usadas nos

estudos presentes em nosso estudo. Cabe aqui destacar que os genes identificados como relacionados a função de neutrófilos não são genes de expressão exclusiva de neutrófilos.

Nosso estudo tem limitações que precisam ser reconhecidas. Como em qualquer meta-análise, os resultados são dependentes e limitados pelas características dos estudos originais. Mesmo que restringimos nossa análise a conjuntos de dados usados em estudos publicados revisados por pares com meta-dados de alta qualidade e de uma mesma plataforma de microarray. Foi um pouco surpreendente para nós que mais conjuntos de dados não estivessem disponíveis para comparações, dada a relevância epidemiológica de TEV e DCV. Essa limitação foi particularmente relevante para o TEV.

Essa também foi a razão pela qual tivemos que incluir estudos usando RNA de diferentes fontes (ainda assim conseguimos restringir as células sanguíneas circulantes) e de estudos com diferentes tempos de seguimentos dos pacientes em relação ao evento trombótico inicial. Esta tentativa de conciliação entre a homogeneidade da amostra e a disponibilidade da amostra foi necessário para tornar o estudo possível. No entanto, ela gera uma limitação relacionada à comparabilidade das assinaturas de expressão gênica entre RNA de células mononucleares e de sangue total. A favor de nossa estratégia citamos dois argumentos. O primeiro é que já foi demonstrado que quando a coleta de sangue total é feita em tubos específicos para a avaliação da expressão gênica com estabilizantes para o RNA, como no caso dos estudos incluídos em nossa análise, a diferença entre estas duas fontes de RNA é reduzida (225). De fato, a semelhança entre os resultados obtidos com as duas fontes de RNA também já foi demonstrada em um estudo de expressão gênica em pacientes com insuficiência cardíaca (226). O segundo aspecto é que o conceito de meta-análise parte da premissa que ao considerarmos apenas as informações presentes em todos os estudos, estamos filtrando os resultados positivos de vieses e artefatos, de modo que as relações que persistem podem ser consideradas aquelas com maior probabilidade de serem relevantes. Neste sentido, não podemos excluir que algumas relações relevantes possam ser perdidas pelo uso de fontes diferentes de RNA. No entanto, a relevância das relações positivas torna-se mais

provável, até por terem se sustentado quando analisadas em diferentes contextos experimentais. Esse conceito já foi comprovado pela identificação de biomarcadores relevantes usando uma estratégia semelhante em uma doença complexa, como o diabetes (227,228). Também argumentamos que ele foi internamente validado em nossa análise pela via da IL-1 relevante na patogênese da DCV, como recentemente confirmado no ensaio clínico CANTOS (190).

Outra limitação, já citada nos materiais e métodos, refere-se ao uso exclusivo dos genes modulados positivamente nos estudos de GSA. Esta decisão foi baseada na estratégia usada em outro estudo de nosso grupo (81), e também no conceito de que a análise da expressão de um subconjunto de transcritos é capaz de dar informações sobre o transcriptoma global (170–172). Não obstante, entendemos ser importante o reconhecimento que a análise das vias associadas aos genes modulados negativamente também poderia agregar mais informações, e por este motivo pretendemos realiza-la em estudos futuros.

6. CONCLUSÕES

O universo de dados públicos em ciências ômicas é amplo e acessível, e seu uso pela comunidade científica é uma estratégia efetiva e racional para geração de novos conhecimentos. Ferramentas de análise funcional dispersas na internet facilitam a interpretação de listas de genes através da identificação de padrões presentes nestes dados, e de sua associação com outras dimensões de informação (clínica, dados de outra natureza biológica, funcional, etc.). Do ponto de vista ético e regulatório, o uso de dados públicos exige aderência às normas especificadas nas bases de dados, e bom senso quando estas normas se mostrarem insuficientes para balizar todas as questões que surgem nesta área. A hematologia é uma área em que muitas destas aplicações vêm sendo utilizadas, e serve aqui apenas como modelo para a aplicação mais ampla em outras áreas.

Ao nível transcriptômico, podem ser identificadas assinaturas gênicas comuns e divergentes às tromboses venosas e arteriais. Imunidade inata e hemostasia são processos biológicos enriquecidos nestas condições, reforçando o modelo de imunotrombose. Do ponto de vista transcricional, neutrófilos são elementos mais importantes nas DCV que no TEV. A assinatura da expressão gênica do TEV se assemelha mais ao padrão observado no AVC cardioembólico do que o padrão observado no IAM, no AVCi e na DAOP. As listas de genes gerados em nosso estudo podem ser utilizadas como fonte para busca de novos biomarcadores ou estudos de fisiopatologia

7. REFERÊNCIAS

1. Berger ML, Doban V. Big data , advanced analytics and the future of comparative effectiveness. J Comp Eff Res. 2014;3(2):167–76. 2. Gligorijević V, Malod-dognin N, Pržulj N. Integrative Methods for

Analysing Big Data in Precision Medicine. Proteomics. 2015;16(5):741– 58.

3. Hasin Y, Seldin M, Lusis A. Multi-omics approaches to disease. Genome Biol. 2017;18(1):1–15.

4. Yu XT, Zeng T. Integrative Analysis of Omics Big Data. T. H, editor. Vol. 1754, Computational Systems Biology. Humana Press, New York, NY; 2018. 109–135 p.

5. Lewin JH, Vis DJ, Voest EE et al. Determining barriers to effective data sharing in cancer genomic sequencing initiatives: a global alliance for genomics and health (GA4GH) survey. J Clin Oncol. 2016;34:

15_sup:11502.

6. Auffray C, Balling R, Barroso I, Bencze L, Benson M, Bergeron J. Making sense of big data in health research : Towards an EU action plan.

Genome Med [Internet]. 2016;8(1):1–13. Available from: http://dx.doi.org/10.1186/s13073-016-0323-y

7. Page A, Baker D, Bobrow M, Al. E. A federated ecosystem for sharing genomic, clinical data. Science (80- ). 2016;352(6291):1278–80. 8. Rothstein MA, Knoppers BM, Harrell HL. Comparative Approaches to

Biobanks and Privacy. J Law Med Ethics. 2016;44(1):161–72.

9. Birney E, Vamathevan J, Goodhand P. Genomics in healthcare : GA4GH looks to 2022. GA4GH Connect. 2017;1:1–20.

10. Kovalevskaya N V, Whicher C, Richardson TD, Smith C, Grajciarova J, Cardama X, et al. DNAdigest and Repositive : Connecting the World of Genomic Data. PLoS Biol. 2016;13(3):1–10.

11. World Health Organization W. Cardiovascular diseases (CVDs) [Internet]. World Health Organization, WHO. 2017. Available from:

https://www.who.int/en/news-room/fact-sheets/detail/cardiovascular- diseases-(cvds)

12. Laney D. 3D data management: Controlling data volume, velocity and variety. META Group Inc. 2001;1–4.

13. Andreu-perez J, Poon CCY, Merrifield RD, Wong STC. Big Data for Health. IEEE J Biomed Heal Inf. 2015;19(4):1193–208.

How to Reshape the Healthcare System. Heal Inf Res. 2013;19(2):79–85. 15. Chen M, Mao S, Liu Y. Big Data : A Survey. Mob Netw Appl.

2014;19:171–209.

16. Mccue ME, Mccoy AM. The Scope of Big Data in One Medicine : Unprecedented Opportunities and Challenges. Front Vet Sci. 2017;4(194):1–23.

17. Rodríguez-enríquez LRC, Luis J, Cervantes SJ, Luis J, Alor-hernández G. A general perspective of Big Data: applications, tools, challenges and trends. J Supercomput. 2015;72(3073).

18. Wong HT, Chung V, Chiang L, Choi KS, Loke AY. The Need for a Definition of Big Data for Nursing Science : A Case Study of Disaster Preparedness. Int J Env Res Public Heal. 2016;13(10):1–13.

19. Belle A, Thiagarajan R, Soroushmehr SMR, Navidi F, Beard DA, Najarian K, et al. Big Data Analytics in Healthcare. Biomed Res Int. 2015;2015:1– 16.

20. Baro E, Degoul S, Beuscart R, Chazard E. Toward a Literature-Driven Definition of Big Data in Healthcare. Biomed Res Int. 2015;2015(639021). 21. Stagljar I. The power of OMICs. Biochem Biophys Res Commun.

2016;479(4):607–9.

22. Consortium IHGS. Initial sequencing and analysis of the human genome. Nature. 2001;409:861–921.

23. Alyass A, Turcotte M, Meyre D. From big data analysis to personalized medicine for all : challenges and opportunities. BMC Med Genomics. 2015;8(33):1–12.

24. Mckiernan EC, Bourne PE, Brown CT, Buck S, Kenall A, Lin J, et al. How open science helps researchers succeed. eLife Sci. 2016;5(e16800):1– 19.

25. Collins FS T LA. Policy: NIH plans to enhance reproducibility. Nature. 2014;505(7485):612–3.

26. Piwowar HA, Vision TJ. Data reuse and the open data citation advantage. PeerJ. 2013;1(e175):1–25.

27. Ralston A, Shaw K. Gene expression regulates cell differentiation. Nat Educ. 2008;1(1):127.

28. Alberts B, Johnson A, Lewis J. Molecular Biology of the Cell. Studying Gene Expression and Function. [Internet]. 4th edition. New York: Garland Science. 2002. Available from:

https://www.ncbi.nlm.nih.gov/books/NBK26818/

29. Clark DP, Pazdernik NJ. Chapter e19 - Analysis of Gene Expression. In: Molecular Biology. 2013. p. e433–8.

approaches to understand complex traits. Nat Rev Genet. 2014;15(1):34– 48.

31. Ragoussis J. Genotyping technologies for genetic research. Annu Rev Genomics Hum Genet. 2009;10:117–33.

32. Koboldt DC, Steinberg KM, Larson DE, Wilson RK, Mardis E. The Next- Generation Sequencing Revolution and Its Impact on Genomics. Cell. 2014;155(1):27–38.

33. Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev. 2009;10(1):57-63.

34. Garber M, Grabherr MG, Guttman M, Trapnell C. Computational methods for transcriptome annotation and quantification using RNA-seq. Nat Publ Gr [Internet]. 2011;8(6):469–77. Available from:

http://dx.doi.org/10.1038/nmeth.1613

35. Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, Baren J Van, et al. Transcript assembly and abundance estimation from RNA-Seq reveals thousands of new transcripts and switching among isoforms. Nat

Biotechnol. 2011;28(5):511–5.

36. Graves PR, Haystead TAJ. Molecular Biologist ’ s Guide to Proteomics. Microbiol Mol Biol Rev. 2002;66(1):39–63.

37. Domon, B, and Aebersold R. Mass spectrometry and protein analysis. Science (80- ). 2006;312(5771):212–7.

38. Fuhrer T ZN. High-throughput discovery metabolomics. Curr Opin Biotechnol. 2015;31:73–8.

39. Dettmer K, Aronov P, Hammock BD. Mass Spectrometry - Based Metabolomics. Mass Spectrom Rev. 2007;26(1):51–78.

40. Dunn W, Broadhurst D, Atherton H, Goodacre R, Griffin J. Systems level studies of mammalian metabolomes: the roles of mass spectrometry and nuclear magnetic resonance spectroscopy. Chem Soc Rev.

2011;40(1):387–426.

41. Zhu J, Adli M, Zou JY, Verstappen G, Zhang X, Durham T, et al.

Genome-wide chromatin state transitions associated with developmental and environmental cues. Cell. 2014;152(3):642–54.

42. Yen A, Kheradpour P, Zhang Z, Heravi-moussavi A, Liu Y, Amin V, et al. Integrative analysis of 111 reference human epigenomes. Nature.

2015;518(7539):317–30.

43. Biddle JF, Fitz-gibbon S, Schuster SC, Brenchley JE, House CH.

Metagenomic signatures of the Peru Margin subseafloor biosphere show a genetically distinct environment. Proc Natl Acad Sci.

2008;105(30):10583–8.

44. Madhavan A, Sindhu R. Metagenome Analysis : a Powerful Tool for Enzyme Bioprospecting. Appl Biochem Biotchnol. 2017;183(2):636–51.

45. Cooper, E., Patterson I. The legacy of GenBank: The DNA sequence database that set a precedent. 1663: The Los Alamos Science and Technology Magazine. Los Alamos Sci Technol Mag [Internet]. 2008; Available from:

http://www.lanl.gov/news/index.php/fuseaction/1663.article/d/200808/id/1 4273

46. Lathe, W., Williams, J., Mangan, M., Karolchik D. Genomic Data

Documentos relacionados