• Nenhum resultado encontrado

Big data e dados púbicos de expressão gênica : aplicações na pesquisa biomédica e estudo de caso em doenças tromboembólicas = Big data and public gene expression data: applications in biomedical research and case study in thromboembolic diseases  

N/A
N/A
Protected

Academic year: 2021

Share "Big data e dados púbicos de expressão gênica : aplicações na pesquisa biomédica e estudo de caso em doenças tromboembólicas = Big data and public gene expression data: applications in biomedical research and case study in thromboembolic diseases  "

Copied!
135
0
0

Texto

(1)

FACULDADE DE CIÊNCIAS MÉDICAS

RAFAELA BENATTI DE OLIVEIRA

BIG DATA E DADOS PÚBLICOS DE EXPRESSÃO GÊNICA: APLICAÇÕES NA PESQUISA BIOMÉDICA E ESTUDO DE CASO EM DOENÇAS

TROMBOEMBÓLICAS

BIG DATA AND PUBLIC GENE EXPRESSION DATA: APPLICATIONS IN BIOMEDICAL RESEARCH AND CASE STUDY IN THROMBOEMBOLIC DISEASES

CAMPINAS 2019

(2)

BIG DATA E DADOS PÚBLICOS DE EXPRESSÃO GÊNICA: APLICAÇÕES NA PESQUISA BIOMÉDICA E ESTUDO DE CASO EM DOENÇAS

TROMBOEMBÓLICAS

BIG DATA AND PUBLIC GENE EXPRESSION DATA: APPLICATIONS IN BIOMEDICAL RESEARCH AND CASE STUDY IN THROMBOEMBOLIC DISEASES

Tese apresentada à Faculdade de Ciências Médicas da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Doutora em Ciências Médicas, Área de Concentração em Ciências Biomédicas.

Thesis presented to the School of Medical Sciences from the State University of Campinas as part of the requirements necessary for obtaining the title of Doctor of Medical Sciences, in the concentration area of Biomedical Sciences.

ORIENTADOR: ERICH VINICIUS DE PAULA

ESTE TRABALHO CORRESPONDE À VERSÃO FINAL DA TESE DEFENDIDA PELA

ALUNA RAFAELA BENATTI DE OLIVEIRA, E ORIENTADA PELO PROF. DR. ERICH VINICIUS DE PAULA.

CAMPINAS 2019

(3)
(4)

COMISSÃO EXAMINADORA DA DEFESA DE DOUTORADO

RAFAELA BENATTI DE OLIVEIRA

ORIENTADOR: ERICH VINICIUS DE PAULA

MEMBROS:

1. PROF. DR. ERICH VINICIUS DE PAULA

2. PROF. DRA. CLAUDIA MARIA BAUZER MEDEIROS

3. PROF. DRA. CLÁUDIA VIANNA MAURER MORELLI

4. PROF. DR. PAULO VIDAL CAMPREGHER

5. PROF. DR. SÉRGIO PAULO BYDLOWSKI

Programa de Pós-Graduação em Ciências Médicas da Faculdade de Ciências Médicas da Universidade Estadual de Campinas.

A ata de defesa com as respectivas assinaturas dos membros encontra-se no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa da FCM.

(5)

É chegado ao fim a realização de um sonho, um ciclo! Nessa caminhada teve muitas risadas, felicidades, dúvidas, angústias, e muitas pessoas ao meu lado. Sendo assim, dedico este trabalho a todos que fizeram parte desta etapa da minha vida. A Deus, por guiar esse sonho, iluminar dias nebulosos e permitir que pessoas maravilhosas cruzassem o meu caminho, ao Erich, por todos os ensinamentos, aos amigos do laboratório, pela ajuda e amizade, a minha família, pelo amor incondicional e por estarem ao meu lado em todos os momentos, ao meu marido, pelo apoio, cuidado e amor, e aos amigos pelo carinho e paciência.

(6)

Ao meu orientador Dr. Erich Vinicius de Paula, expresso meu profundo agradecimento pela orientação, pela confiança, por todo apoio, paciência, e pelo auxílio ao meu amadurecimento pessoal e científico.

Ao Bidossessi Wilfried Hounkpe, por toda ajuda e companheirismo na realização desse trabalho, pelas ricas discussões e pela amizade que construímos.

Aos amigos que o laboratório de Fisiopatologia da Hemostasia e Inflamação (LAFHI) me deu, em especial a Loredana, Francieli, Vanessa e Wil, obrigada por compartilharem bons momentos, conversas e discussões. Agradeço também aqueles que passaram no decorrer do doutorado e que também são especiais, Maiara, Fábio e Yzabella.

A minha mãe, Rosângela, por tudo que sou hoje, por todo incentivo financeiro e emocional, pela educação que me deu e pelo amor incondicional.

Aos meus irmãos Leonardo e Aline, por apoiar as minhas escolhas e estarem comigo em todos os momentos da minha vida.

A minha Grande família: minhas avós Dirce e Leonor pelo amor, carinho, educação e apoio sempre, vocês são exemplos de mulheres fortes e guerreiras. Ao meu pai, João, pelos ensinamentos e apoio. Aos meus tios, tias, primos e primas pela união da nossa família e estarem presentes em todos os momentos da minha vida. A minha cunhada e amiga Fernanda pelo apoio, amor, carinho e pelos presentes que me deu, Felipo, Breno e Lucca, que me fazem muito feliz.

Aos meus queridos e amados “filhos de pelos e penas”, por toda alegria e amor que dão sem querer nada em troca: Simba, Naomi, Hanna, Zé, Nenê e Nica (in memoriam).

As amigas irmãs que o trabalho no mundo acadêmico me deu: Aline, Ana Carolina, Larissa, Patrícia, Sônia e Silvana, muito obrigada pelos conselhos, amizade e por dividirem os fardos da vida comigo.

(7)

Thais e Valquíria.

Aos meus sogros, Ari (in memoriam) e Edna, por todo apoio, compreensão, carinho, amor e cuidado que sempre tiveram comigo.

Em especial, agradeço ao meu marido Michael, por ser uma pessoa maravilhosa, um amigo e companheiro extremamente compreensível, que me aceitou trabalhando e fazendo doutorado ao mesmo tempo e em todos esses momentos bons ou ruins, comigo ou na minha ausência se mostrou paciente, cuidou de mim e demostrou o seu amor. Seu cuidado e amor foram essenciais e sem eles durante essa caminhada não seria possível ir adiante. Obrigada por tudo sempre, eu te amo.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001.

(8)

“We are drowning in information while starving for wisdom”. (E. O. Wilson)

(9)

cresceu de forma exponencial, gerando o conceito de big data. Nas ciências biomédicas há uma categoria de big data conhecida como ciências ômicas, definidas como aquelas que utilizam tecnologias que geram dados em larga escala e abordam os sistemas biológicos sob uma ótica global. A interpretação de big data e a integração das ciências ômicas é complexa e desafiadora. Com isso, muitos novos estudos foram realizados nesta área, exigindo o desenvolvimento de novas estratégias para armazenamento, análise e integração. No entanto, estas ferramentas são novas, encontram-se dispersas na internet, e são muito heterogêneas em relação à linguagem com que se relacionam com potenciais usuários. A consequência disso é que apesar do grande aumento na disponibilidade de big data, principalmente em repositórios públicos, seu uso na pesquisa ainda é restrito ao nicho dos pesquisadores que os geram, limitando seu impacto positivo na pesquisa. É a partir desta constatação que sistematizamos através de uma revisão da literatura diferentes aspectos sobre o uso de dados ômicos na pesquisa biomédica e buscamos catalogar e discutir os usos destas ferramentas. Utilizamos a hematologia como área potencial de aplicação e apresentamos um estudo de caso. Selecionamos as doenças cardiovasculares (DCV) e o tromboembolismo venoso (TEV) que são as maiores causas de morbidade e mortalidade no mundo. A escolha destas condições é interessante não apenas por sua relevância epidemiológica, mas também por seu caráter multifatorial e mecanismos patogênicos muito distintos o que torna mais atrativa uma análise global e permite a busca de fatores comuns e divergentes na biologia destas doenças ao nível celular e molecular. Nosso estudo de caso, consistiu no uso de um painel de ferramentas de bioinformática e cinco conjuntos de dados públicos de expressão gênica de pacientes com TEV e DCV, para explorar vias compartilhadas e divergentes envolvidas na patogênese dessas duas condições. Identificamos dois conjuntos de genes cuja expressão (aumentada ou reduzida) eram semelhantes (n= 472) ou divergentes (n = 124) entre DCV e TEV. Pudemos mostrar que vias associadas à imunidade inata, complemento e hemostasia estavam enriquecidas entre os genes comumente expressos. Também demonstramos que a assinatura da expressão gênica do TEV se assemelha mais ao padrão de AVC cardioembólico do que no infarto agudo do miocárdio, AVC isquêmico e na doença arterial obstrutiva periférica. Dos genes mais expressos em DCV do que em TEV há uma predominância de genes expressos em neutrófilos, o que foi confirmado nos estudos de predição de vias. Apesar das limitações naturais destes métodos, o fato de termos identificado de forma não supervisionada genes e vias sabidamente relevantes para a fisiopatologia da DCV e do TEV, como por exemplo a via da IL-1 em DCV, pode ser visto como uma forma de validação interna desta estratégia experimental. Em conclusão, neste projeto investimos em uma estratégia de difusão de conhecimento sobre o uso de dados ômicos na ciência biomédica que esperamos que possa contribuir para seu uso além dos nichos em que estes dados são gerados.

(10)
(11)

exponentially, generating the concept of big data. In biomedical sciences there is a category of big data known as the omics sciences, defined as those that use technologies that generate large-scale data and approach biological systems from a global perspective. The interpretation of big data and the integration of the omics sciences is complex and challenging. Thus, many new studies have been conducted in this area, requiring the development of new strategies for storage, analysis and integration. However, these tools are new, scattered throughout the internet, and are very heterogeneous in relation to the language with which they communicate with potential users. The consequence of this is that despite the large increase in big data availability, especially in public repositories, its use in research is still restricted to the niche of the researchers that generate them, limiting their positive impact on research. It is from this perspective that we systematized through a literature review different aspects about the use of omics data in biomedical research and sought to catalog and discuss the uses of these tools. We use hematology as a potential area of application and present a case study. We selected cardiovascular diseases (CVD) and venous thromboembolism (VTE) which are the major causes of morbidity and mortality in the world. The choice of these conditions is interesting not only for their epidemiological relevance, but also for their multifactorial character and very distinct pathogenic mechanisms, which makes a global analysis more attractive and allows the search for common and divergent factors in the biology of these diseases at the cellular and molecular level. Our case study consisted of using a bioinformatics pipeline and five public gene expression data sets of patients with VTE and CVD to explore shared and divergent pathways involved in the pathogenesis of these two conditions. We identified two sets of genes whose expression (increased or reduced) were similar (n = 472) or divergent (n = 124) between CVD and VTE. We were able to show that pathways associated with innate immunity, complement and hemostasis were enriched among the commonly expressed genes. We also demonstrated that the signature of VTE gene expression more closely resembles the pattern of cardioembolic stroke than other conditions as acute myocardial infarction, ischemic stroke and peripheral obstructive arterial disease. Of the genes more expressed in CVD than in TEV there is a predominance of genes expressed in neutrophils, which was confirmed in pathway prediction studies. Despite the inherent limitations of these methods, the fact that we have identified genes and pathways known to be relevant to the pathophysiology of CVD and VTE in an unsupervised fashion, such as the IL-1 pathway in CVD, can be seen as a form of validation of the experimental strategy that we used. In conclusion, in this project we invested in a strategy of knowledge diffusion about the use of omics data in biomedical sciences, hoping to contribute to fostering its use beyond the niches in which this data is generated.

(12)

Figura 1: Modelo 6 V's para definição de big data. ... 23

Figura 2: Exemplo de busca feita no GEO DataSets por condição. ... 32

Figura 3: Exemplo de busca feita no GEO profile por gene individual e condição. ... 32

Figura 4: Exemplo de busca feita no ArrayExpress. ... 34

Figura 5: Esquema ilustrando o modelo fisiopatológico para TEV conhecido como tríade de Virchow. ... 42

Figura 6: Mecanismos celulares propostos para trombose venosa. ... 44

Figura 7: Estágios do desenvolvimento das lesões ateroscleróticas. ... 48

Figura 8: Princípios Básicos da Imunotrombose. ... 52

(13)

Tabela 1: FATORES DE RISCOS DO TEV ... 40 Tabela 2:FATORES DE RISCOS ASSOCIADOS AO DESENVOLVIMENTO DE DOENÇAS ATEROSCLERÓTICAS ... 47

(14)

AHA American Heart Association

BIPMed Brazilian Initiative on Precision Medicine COSMIC Catalogue of somatic mutation in cancer

DAMPs Padrões moleculares associados a danos/perigo DAO Doença arterial oclusiva

DAOP Doença arterial obstrutiva periférica dbGaP Database of Genotypes and Phenotypes DCV Doenças cardiovasculares

DD D-Dímero

DDBJ Banco de Dados de DNA do Japão

DECIPHER DatabasE of genomiC varIation and Phenotype in Humans using Ensembl Resources

EMBL Laboratório Europeu de Biologia Molecular EMBL-EBI European Bioinformatics Institute

ENCODE Encyclopedia of DNA Elements FT Fator tecidual

GA4GH Global Alliance for Genomics and Health GEO Gene Expression Omnibus

GSA Gene set analysis

GWAS Estudos de associação genômica ampla HAS Hipertensão arterial sistêmica

IAM Infarto agudo do miocárdio

ICGC International Cancer Genome Consortium

ICMJE Comitê Internacional de Editores de Revistas Médicas

INSDC Colaboração Internacional de Banco de Dados de Sequência de Nucleotídeos

LES Lúpus Eritematoso Sistêmico

(15)

NAR Nucleic Acids Research

NCBI Centro Nacional de Informação em Biotecnologia NETs Redes extracelulares de neutrófilos

PAMPs Padrões moleculares associados a patógenos RNAseq Sequenciamento de próxima geração

RP Rank Prod

SNPs Polimorfismos de nucleotídeos únicos SRA Sequence Read Analysis

SUS Sistema Único de Saúde TCGA The Cancer Genome Atlas TEV Tromboembolismo venoso UNESP Universidade Estadual Paulista WHO World Health Organization

(16)

1. INTRODUÇÃO ... 18

1.1. BIG DATA ... 21

1.1.1. O QUE É? ... 21

1.1.2. BIG DATA E CIÊNCIAS ÔMICAS ... 24

1.1.3. POR QUE USAR DADOS PÚBLICOS DAS CIÊNCIAS ÔMICAS? ... 25

1.1.4. UM MERGULHO INICIAL NO OCEANO DAS BASES PÚBLICAS DE DADOS ÔMICOS ... 26

1.1.5. ETAPAS PARA RECUPERAÇÃO DE DADOS DE BASES PÚBLICAS: MODELO USADO EM ESTUDOS DE EXPRESSÃO GÊNICA ... 30

1.1.6. ESTRATÉGIAS PARA ANÁLISE DOS DADOS ... 34

1.1.7. O PAPEL DAS META-ANÁLISES NOS ESTUDOS DE EXPRESSÃO GÊNICA ... 35

1.1.8. ALGUNS ASPECTOS REGULATÓRIOS E ÉTICOS RELATIVOS AO USO DE DADOS PÚBLICOS GENÔMICOS ... 36

1.2. TROMBOSES ... 37

1.2.1. TROMBOEMBOLISMO VENOSO ... 37

1.2.2. TROMBOSES ARTERIAIS ... 45

1.2.3. SEMELHANÇAS E DIFERENÇAS ENTRE TEV E DAO ... 49

1.2.4. IMUNOTROMBOSE ... 50 2. OBJETIVOS ... 53 2.1. OBJETIVO GERAL ... 53 2.2. OBJETIVOS ESPECÍFICOS ... 53 3. METODOLOGIA ... 54 3.1. REVISÃO DA LITERATURA ... 54

3.2. ESTUDO DE CASO: DIFERENÇAS E SEMELHANÇAS DE ASSINATURAS DE EXPRESSÃO GÊNICA ENTRE TROMBOEMBOLISMO VENOSO E DOENÇA CARDIOVASCULAR USANDO DADOS DE REPOSITÓRIOS PÚBLICOS ... 54

4. RESULTADOS ... 59

Artigo 1 ... 59

Artigo 2 ... 83

(17)
(18)

1. INTRODUÇÃO

Visão geral do problema

Ao longo das últimas décadas, a quantidade e tipos de dados gerados cresceu de forma exponencial. A esta grande quantidade de dados foi dado o nome de big data. O termo “big data” pode ser definido como um conjunto de dados volumosos e complexos que os métodos tradicionais de processamento são inadequados para analisar (1,2). O termo big data se aplica a diversas áreas, como finanças, educação, negócios, política, pesquisa, saúde entre outras. Na área da saúde, mais precisamente na área biomédica, há a categoria dos dados das ciências ômicas, as quais usam tecnologias que produzem dados em larga escala e que buscam uma visão mais global dos sistemas biológicos. Fazem parte das ciências ômicas, a genômica, epigenômica, transcriptômica, proteômica, metabolômica e outros (3,4). Como modelo para nossa discussão sobre big data, utilizaremos o termo genômica, por ser esta a “ômica” mais antiga, e para a qual há mais dados e discussões publicadas. Em alguns momentos, o termo será usado de forma livre, compreendendo também outras das chamadas ciências ômicas.

A pesquisa na área genômica promete grandes avanços na compreensão da saúde e da doença. Em paralelo, o compartilhamento de dados genômicos oferece perspectivas encorajadoras para acelerar a pesquisa, gerando conjuntos de dados ricos em informações. Tais benefícios, no entanto, só chegam até a população geral se pesquisadores e clínicos puderem acessar, fazer comparações e buscar padrões nestes conjuntos de dados de um grande número de indivíduos. Para tal, a integração dos dados genômicos de grandes coortes de indivíduos, saudáveis e doentes é um passo essencial para que estas análises possam ser realizadas com razoável confiança. Por outro lado, está integração envolve grandes dificuldades técnicas, legais e éticas que se não tratadas adequadamente podem limitar muito a exploração destes dados (5).

Além disso, devido à diversidade e fragmentação dos sistemas de saúde, bases de dados médicos e repositórios de dados de pesquisa, há uma falta de harmonização de formatos de dados, processamento, análise e transferência de dados, que muitas vezes gera incompatibilidades que inviabilizam estas análises e levam à perda de oportunidades de avanço científico (6). Essa dificuldade em compartilhar grandes conjuntos de dados para fins de pesquisa é agravada pelo fato

(19)

de que os dados clínicos, genômicos ou de outra natureza ainda são geralmente coletados e estudados dentro de pequenos grupos, por doença, instituição, ou no máximo por consórcios (7). Como agravante, alguns países estabelecem disposições rigorosas acerca do compartilhamento de dados internacional ou mesmo proíbem completamente este procedimento (8).

Apesar dessas limitações, ao longo dos últimos anos, quantidades crescentes de dados genômicos foram gerados e tornaram-se disponíveis para fins de pesquisa por meio de diversas plataformas diferentes. Esse aumento pode ser ilustrado pelo crescente número de estudos contendo o termo “genomic data”, que somam 487.311 resultados, e pelo termo “genomic data sharing” que somam 5.043 resultados na base Pubmed (busca em março de 2019). Este aumento na geração de dados está relacionado com o aumento da capacidade de sequenciamento do genoma, e outras ferramentas de análise em larga escala. A Aliança Global para Genômica e Saúde (GA4GH – “The Global Alliance for Genomics and Health”) estimou que, até o final de 2018, mais de 20% do sequenciamento do genoma estariam disponíveis para possível uso no que pode ser denominado “medicina genômica” (https: //www.ga4gh.org). Até 2030, prevê-se que 83.000.000 genomas de doenças raras sejam sequenciados para diagnóstico e que 248.000.000 genomas tenham sido sequenciados para o diagnóstico de câncer (9). Mesmo estas previsões podem estar subestimadas, o que é sugerido pela discrepância entre a quantidade de dados disponíveis para acesso à comunidade científica, publicados no banco de dados de genótipos e fenótipos o dbGaP (The database of Genotypes and Phenotypes) (um dos maiores repositórios para dados clínicos genômicos humanos), e uma estimativa de dados gerados com base nas vendas anuais de insumos de apenas um dos fornecedores de sequenciamento (Illumina) (10).

Diante desses números, a tendência da comunidade científica vem sendo a busca de soluções tecnológicas para gerenciar esses dados, e também para seu compartilhamento. Esta busca deve envolver políticas de compartilhamento definidas em conjunto, e sistemas harmonizados e interoperáveis para acesso a estes conjuntos de dados.

Além destes desafios tecnológicos, um problema menos discutido pela comunidade científica é o desconhecimento de pesquisadores e clínicos tanto sobre os conceitos básicos, quanto sobre as ferramentas necessárias para acesso e uso destes dados (10). De forma análoga à publicação dos dados genômicos brutos, a

(20)

informação sobre estes conceitos e estas ferramentas encontra-se em geral dispersa em fragmentos de artigos científicos, livros e sites, o que dificulta a obtenção de uma visão panorâmica deste universo de informações disponíveis para a pesquisa. Neste contexto, entendemos que a organização desta informação e sua comunicação efetiva para a comunidade científica são também passos essenciais para que todos os benefícios das ciências ômicas cheguem à população.

As doenças tromboembólicas venosas e arteriais figuram entre as principais causas de morbidade e mortalidade no Brasil e no mundo (11). Sua fisiopatologia é complexa e apesar de décadas de pesquisa, ainda parcialmente compreendida. Nas últimas décadas diversos laboratórios geraram bases de dados genômicos sobre estas condições, abrindo oportunidade para seu estudo utilizando estratégias de integração de dados.

Visão geral dos objetivos

O aproveitamento pleno da grande quantidade de dados gerados pela humanidade é um desafio cada vez maior. Dados genômicos (e de outras “ciências ômicas”) e de prontuários médicos eletrônicos representam oportunidade e desafio. Contexto este que gera algumas barreiras, tais como os desafios técnicos-operacionais, agravados pela dispersão das informações e dos dados. Nesse sentido os objetivos do nosso trabalho foi sistematizar informações dispersas na literatura sobre bases públicas de dados genômicos e de outras ciências ômicas e as principais estratégias de uso destes dados na pesquisa biomédica, assim como escolhemos uma estratégia para aplicar.

Visão geral dos resultados obtidos

Artigo 1: Oportunidades para o uso de bases de dados públicas na pesquisa em hematologia.

Nesse artigo buscamos sistematizar parte do conhecimento da área. Como nenhuma ferramenta sozinha é suficiente para cobrir todo o conjunto de análises enumeramos para cada ferramenta as principais funcionalidades. Selecionamos dezessete exemplos de bancos de dados e ferramentas sobre dados de variação gênica, nove exemplos de bancos de dados e ferramentas sobre dados de expressão gênica e nove exemplos de bancos de dados e ferramentas de dados de ciências ômicas e de outras naturezas. Selecionamos também ferramentas que buscam padrões em seus resultados e associam estes padrões com termos de

(21)

relevância biológica como vias, ontologias, tecidos, entre outros, para serem usadas na análise e interpretação dos dados obtidos nos diferentes bancos de dados. Como nenhuma ferramenta sozinha é suficiente para cobrir todo o conjunto de análises enumeramos para cada ferramenta as principais funcionalidades.

Artigo 2: Differences and similarities of gene expression signatures between venous thromboembolism and cardiovascular disease using data from public repositories.

Neste artigo mostramos na prática um exemplo de aplicação de dados públicos com análises integradas em doenças complexas, como as doenças cardiovasculares (DCV), representada nesse estudo pelo Infarto Agudo do Miocárdio (IAM), Acidente Vascular Cerebral Isquêmico (AVCi), Acidente Vascular Cerebral Cardioembólico (AVC cardioembólico) e Doença Arterial Obstrutiva Periférica (DAOP), e o tromboembolismo venoso (TEV), totalizando cinco estudos. Executamos então uma meta-análise que gerou duas listas de genes. A primeira lista gerou 472 genes diferencialmente expressos (em relação aos controles saudáveis), na mesma direção (positivamente ou negativamente) nas cinco condições estudadas, ainda o padrão de expressão gênica mostrou que as maiores semelhanças foram entre AVCi e DAOP, seguida por IAM e TEV. E o que chamou a atenção é que o AVC cardioembólico tem um perfil mais distante das tromboses arteriais e mais próximo ao TEV. A segunda lista mostrou as diferenças entre DCV e TEV ao nível de expressão genica. Essa lista gerou 124 genes com expressão divergente entre TEV e DCV, sendo 71 genes positivamente expressos no TEV e negativamente expressos nas DCV, e 53 genes positivamente expressos na DCV e negativamente expressos no TEV.

1.1.

BIG DATA

1.1.1. O QUE É?

O termo “Big Data” é utilizado em diversas áreas. O termo pode ser definido, de forma bem pragmática, como um conjunto de dados volumosos e complexos que os métodos tradicionais de processamento são inadequados para analisar (1,2). Outra definição define o Big Data como: dados com grande volume, grande variedade e grande velocidade de informação/dados, as quais demandam formas

(22)

inovadoras e eficientes de processamento de informações, para melhor percepção e tomada de decisão. Essa definição encerra em si ˜as principais características do Big Data que estão relacionados a volume, velocidade e variedade, conhecido como 3 V’s (12). Outros V’s também foram utilizados para caracterizar o Big Data, como a veracidade e valor, formando 5 V’s. A variabilidade é considerada um sexto V por alguns autores (13). A seguir detalharemos cada uma destas características.

O volume está relacionado ao tamanho do conjunto de dados e é medido pela unidade byte, que pode ser expressa em terabytes (1012 bytes), petabytes (1015

bytes) ou exabytes (1018 bytes), e assim por diante (1). A velocidade refere-se à

rapidez com que novos dados estão sendo gerados, e se esta geração acontece em tempo real (14), como no caso das mídias sociais como o Facebook. A variedade corresponde à agregação de fontes de dados de diferente natureza, ou da mistura de dados derivados de fontes independentes. Neste quesito, os dados podem ser estruturados ou não estruturados. Dados estruturados são aqueles que podem ser representados dentro das linhas e colunas de uma matriz de dados. A consulta a estes dados é mais fácil, através de algoritmos de busca computacionais. Já os dados não estruturados não possuem uma organização predefinida e, embora possam ter sua própria estrutura interna, ela não é matricial e não é tão trivialmente armazenada em bancos de dados. Na saúde exemplos de dados não estruturados incluem notas escritas em prontuários e imagens médicas. Embora esses dados possam ser codificados para formatos mais estruturados, o processo leva a perdas inevitáveis de informações (15,16). A veracidade está relacionada à precisão de um banco de dados. Se um banco de dados contiver muitos dados imprecisos, a análise tem maior potencial de gerar resultados imprecisos. No conteúdo do big data, um certo grau de imprecisão é aceitável porque o volume de dados é muito maior do que nos conjuntos de dados tradicionais, o que compensaria os possíveis erros (16). O valor corresponde ao valor que um determinado dado tem. No nível mais simplista, os dados não têm valor intrínseco. Só se tornam úteis quando você consegue extrair a percepção necessária para solucionar um problema específico, ou atender a uma necessidade específica. Uma vez que você possa fazer isso, os dados adquirem valor através do impacto nos negócios, ciência e na percepção de consumidores potenciais. (13,17). Por fim, a variabilidade refere-se à integridade dos dados e como esses podem ou não mudar ao longo do tempo. Essas

(23)

características impõem desafios para análises estatísticas e exigem consideração especial no controle de qualidade de dados, incluindo como lidar com dados perdidos ou faltantes, medidas redundantes, entre outros. Por exemplo, dados de expressão gênica podem ser diferentes conforme o tecido, e mudam durante o ciclo de vida de um indivíduo e diante de diferentes estímulos (18,19).

O volume está relacionado ao tamanho do conjunto de dados, a velocidade com a rapidez de geração dos dados, a variedade refere-se ao tipo e fontes dos dados, sendo esses os 3 V’s originais. Mais três V’s foram levantados por pesquisadores da área que são: a veracidade, relacionada à precisão de um banco de dados, o valor que um determinado dado possui e os custos que esse gera, e a variabilidade que se refere a integridade dos dados. Fonte: Adaptado de (17).

De forma geral o foco que a comunidade científica dirige ao Big Data é associado às descobertas que podem resultar de seu processamento. Através da análise destes dados e da identificação de novos padrões, almeja-se a exploração de perguntas complexas, ou mesmo a formulação de perguntas que ainda não foram feitas.

(24)

Em relação à área da saúde, em 2015 Baro e colaboradores (20) conduziram uma revisão da literatura buscando o termo “Big Data”, que resultou em 196 artigos diretamente relacionados à saúde humana, dos quais 48 incluíam conjunto de dados. Esses autores identificaram que os artigos de Big Data na área da saúde são em geral utilizados em três categorias de estudos: a primeira envolve os estudos das ciências ômicas, e é caracterizada por um grande número de dados (de centenas a milhões), coletados em um número limitado (100-1.000) de indivíduos; a segunda categoria abrange estudos de bioinformática que contêm um número moderado a grande de indivíduos e variáveis medidas; e a terceira categoria inclui o Big Data em saúde pública e é caracterizada por um grande número de indivíduos com um número limitado de variáveis medidas (20). Além disso, Baro e colaboradores (20) criaram uma definição para Big Data em saúde, abordando não só o volume, mas também a amplitude e/ou complexidade dos dados. A definição leva em conta o volume, suas propriedades e conceitos relacionados:

Log (n*p) ≥ 7, sendo n o número de indivíduos, e p o número de variáveis medidas para cada indivíduo.

Ainda, Baro e colaboradores (20) argumentam que as propriedades de conjuntos de big data podem ser listadas da seguinte forma: (i) grande variedade, (ii) alta velocidade de geração, (iii) complexidade quanto à veracidade, (iv) complexidade em todos os aspectos do fluxo de trabalho, (v) desafiador quanto aos métodos computacionais, (vi) desafiador quanto à extração de informações relevantes, (vii) desafiador quanto ao compartilhamento de dados, (viii) e desafiador quanto à disponibilidade de recursos humanos para sua gestão (20).

1.1.2. BIG DATA E CIÊNCIAS ÔMICAS

Dentro do universo de big data na área biomédica, os dados costumam ser organizados em categorias conforme o tipo de dado ou origem, dentro das chamadas ciências ômicas. Independente da “ômica” em questão, o objetivo geral destes novos campos de conhecimento é analisar de forma global o funcionamento de sistemas biológicos, com o objetivo de entender mais profundamente como estes se organizam. De forma mais específica, as ômicas podem ser aplicadas não apenas nesta compreensão dos processos fisiológicos biológicos, mas também no rastreamento, diagnóstico e prognóstico, contribuindo por exemplo para identificação

(25)

de novos biomarcadores, descoberta de novos medicamentos, definição de escores preditores de prognóstico, entre outros. É neste contexto que se inserem por exemplo a farmacogenômica, que explora como variações individuais ao nível molecular influenciam a resposta a drogas, em linha com o conceito da “medicina personalizada” (21).

Fazem parte das ciências ômicas a genômica, cujas análises partem do conteúdo do material genético (genes e suas variantes), a transcriptômica, que consiste na análise da expressão gênica propriamente dita (RNA, transcritos), a proteômica, que estuda as proteínas expressas, a metabolômica, que estuda os diferentes metabólitos presentes em um sistema biológico, a epigenômica, que que estuda os mecanismos extragenômicos que regulam a expressão gênica (metilação, modificação de histonas, estrutura da cromatina), a metagenômica, que estuda a flora normal de um indivíduo, entre outras. À medida que estas áreas se desenvolvem elas se especificam e subdividem, levando ao surgimento de outras ômicas (3,4). O Projeto Genoma Humano (1989-2000), cujo objetivo era: sequenciar as 3,2 bilhões de bases nitrogenadas do genoma humano, pode ser considerado um marco por ter envolvido diversos aspectos do desenvolvimento tais como o sequenciamento, armazenamento e desenvolvimento de ferramentas de análise (22). De fato, o desenvolvimento da genômica serviu como ponto de partida para diversos desafios relacionados ao trabalho com grandes conjuntos de dados (23).

No entanto, desde o surgimento dos primeiros dados genômicos ficou claro para a comunidade científica que maior que o desafio de gerá-los seria o desafio de geri-los. Isto é, armazenar, organizar, identificar padrões e principalmente, fazer a integração de cada um destes conjuntos de dados entre si, e com dados clínicos. Desde então a bioinformática e suas áreas afins tornaram-se disciplinas cada vez mais imprescindíveis para esta área de pesquisa (23).

1.1.3. POR QUE USAR DADOS PÚBLICOS DAS CIÊNCIAS ÔMICAS?

Compartilhar dados genômicos ou de outras ciências ômicas é cada vez mais considerado uma boa prática de pesquisa (24). De fato, um número cada vez maior de periódicos científicos, entre os quais a PlosOne e a Scientific Reports, exige este compartilhamento no momento da publicação, ou a inclusão de garantias de compartilhamento de dados, se os mesmos forem solicitados.

(26)

Os benefícios do compartilhamento são cada vez mais reconhecidos e incluem: (i) maior garantia de transparência e reprodutibilidade, que é uma fonte de preocupação constante da ciência moderna; (ii) aumento da disponibilidade de conjuntos de dados complementares e/ou de referência para estudos de outros grupos; (iii) economia de tempo e recursos; (iv) integração de dados de diferente natureza; (v) aumento da possibilidade de novas descobertas, entre outros (10,25). Além disso, há estudos que sugerem que pesquisas que compartilham seus dados tendem a ser mais citados (24,26).

1.1.4. UM MERGULHO INICIAL NO OCEANO DAS BASES PÚBLICAS DE DADOS ÔMICOS

A complexidade e diversidade das bases de dados ômicos frequentemente inibe seu uso por pesquisadores de diversas áreas. Infelizmente, esta complexidade não é somente consequência de limitações na geração e organização dos dados, mas sim uma consequência direta da complexidade dos sistemas vivos. Citamos aqui um exemplo já usado na literatura, em que tentamos compreender por que duas células de um mesmo indivíduo, que possuem exatamente o mesmo genoma, podem adquirir formas tão distintas quanto um neutrófilo circulante no sangue ou um neurônio fotossensível da retina (27). Estas diferenças são reflexo direto das variações no genoma, mecanismos reguladores de expressão gênica, modificações na síntese e processamento de proteínas (28,29), que são justamente os dados que alimentam as ciências ômicas, que detalharemos a seguir.

Principais Tipos de Dados

A genômica tem como objetivo caracterizar a sequência, estrutura, função e evolução dos genomas de um indivíduo ou espécie. As diferenças entre os genomas dos indivíduos são devidas a variações na sequência do DNA que incluem alterações de um único par de bases (polimorfismos de nucleotídeos únicos (SNPs)), inserções ou deleções de um a milhões de pares de bases, duplicações, deleções e inversões genéticas (30). Esse é o campo mais maduro das ciências ômicas. A geração destes dados é normalmente realizada com o auxílio de sequenciadores de nova geração, que permitem a análise simultânea de um número muito grande de regiões do genoma, e por chips de SNP-array, que identificam e mapeiam ao longo de todo o genoma variantes previamente conhecidas (31,32).

(27)

A transcriptômica é o estudo de todas as moléculas de ácido ribonucleico (RNA) expresso em uma célula, tecido ou organismo. Variações na expressão e sua regulação são expressas nos transcriptomas dos tecidos, de modo que a quantificação dos transcriptomas de diferentes células e tecidos de indivíduos saudáveis e com alguma patologia pode levar a uma percepção da função biológica diferente entre estes estados. O estudo da co-expressão gênica é uma outra estratégia de análise dos transcriptomas que pode fornecer informações sobre a regulação compartilhada entre os genes. Os métodos mais usados para geração de transcriptomas são a hibridização por microarray, e o sequenciamento de RNA usando tecnologias de próxima geração (RNA-seq) (33–35).

A proteômica é o estudo em larga escala de proteínas, o proteoma; isto é, todo o conjunto de proteínas que é expresso por uma célula, tecido ou organismo, em um contexto biológico específico. As quantidades e as alterações nas proteínas são refletidas no proteoma. Semelhante ao transcriptoma, o proteoma não é constante; difere de célula para célula, tecido para tecido e entre indivíduos; também muda com o tempo. O proteoma reflete o transcriptoma associado, mas é também modulado por fatores adicionais (pós-traducionais) (36). Do ponto de vista metodológico, os dados de proteômica são geralmente derivados de estudos com espectrometria de massas (37)

O metaboloma é o conjunto de todas as pequenas moléculas presentes em um tecido, sistema ou organismo, como por exemplo aminoácidos, carboidratos, açúcares, fosfolipídios, entre outros. Metabolômica é o estudo de processos celulares através da quantificação dessas pequenas moléculas ou metabólitos (38). Estes dados também são gerados por espectrometria de massas, e sua análise é em geral integrada a estudos de proteômica (39,40).

O conjunto de modificações epigenéticas, ou epigenoma, são modificações que interferem na forma como um gene é expresso em diferentes tecidos ou condições biológicas específicas. Ao contrário das alterações genômicas, elas são reversíveis, variam de uma célula para outra, e não alteram a sequência de DNA. Modificações epigenéticas regulam processos como diferenciação e desenvolvimento celular, e estão na base da pergunta feita acima, sobre como duas células com o mesmo genoma podem ser tão distintas (também chamado de plasticidade fenotípica) (41). A epigenômica é relativamente recente. Parte destes

(28)

mecanismos ainda está sendo conhecida, e engloba a metilação do DNA, modificação de histonas, variações na estrutura da cromatina (em geral reguladas por ligação a proteínas), a ação de RNA não codificado como os microRNA, entre outros. Os métodos de geração destes dados são mais variados e incluem o sequenciamento de dados massivos, o estudo da ligação de proteínas ao DNA (Chip-seq), entre outros (42).

A metagenômica é a ciência que estuda o genoma de microrganismos de um determinado ambiente, ou em outras palavras, da microbiota de um habitat específico. As tecnologias metagenômicas baseiam-se no isolamento direto do DNA genômico de amostras obtidas deste habitat que pode ser uma área ambiental ou um compartimento orgânico como por exemplo a boca, o intestino ou a placa dentária de um hominídeo já extinto. (43,44).

Evolução histórica das bases de dados genômicos

As bases de dados informatizadas são uma ferramenta cada vez mais necessária para organizar as vastas quantidades de dados na área da saúde atualmente disponíveis, e para facilitar a localização de informações relevantes pelos pesquisadores. A trajetória do primeiro banco de dados tem início em 1979, com o Banco de Dados de Sequências de Los Alamos que foi estabelecido como repositório de sequências biológicas. Em 1982, esse banco de dados passou a se chamar GenBank e, no mesmo ano, mudou-se para o Centro Nacional de Informação em Biotecnologia (NCBI), onde ainda se encontra. No final de 1983, mais de 2.000 sequências foram armazenadas no GenBank, com um total de pouco menos de 1 milhão de pares de bases (45).

Por volta do mesmo período, um esforço colaborativo entre o NCBI, o Laboratório Europeu de Biologia Molecular (EMBL) e o Banco de Dados de DNA do Japão (DDBJ) criou a Colaboração Internacional de Banco de Dados de Sequência de Nucleotídeos (INSDC) para coletar e disseminar a crescente quantidade de nucleotídeos e dados de sequência de aminoácidos que estavam sendo gerados. Até 2008, os bancos de dados do INSDC atingiram mais de 95 bilhões de pares de bases, refletindo uma taxa de crescimento exponencial na qual a quantidade de dados armazenados dobrou a cada 18 meses. Estas bases de dados (como o NCBI, EMBL e DDBJ) são construídas através do envio direto de dados de pesquisadores

(29)

individuais, de projetos de sequenciamento e de pedidos de patentes de todo o mundo. No caso de sequências, essas são inseridas no banco de dados e recebem um número único de identificação ou acesso. Essas entradas enviadas são armazenadas em uma "biblioteca" de registros e cada entrada é "de propriedade" de - e só pode ser atualizada por - seu remetente. As entradas enviadas são compartilhadas nos três repositórios diariamente e as liberações dos dados são feitas regularmente. Esses repositórios são recursos muito importantes de acesso global (46).

O advento de tecnologias de sequenciamento de dados massivos, e o boom de estudos em áreas como estudos de associação genômica ampla (GWAS) e empreendimentos como o Projeto 1000 Genomas aumentaram ainda mais o volume e complexidade destes conjuntos de dados (47), gerando um movimento de reorganização dessas informações em repositórios de dados especializados menores. Como exemplo: navegadores de genoma, bancos de dados sobre o genoma de camundongos, banco de dados de expressão gênica, entre outros.

Para obter uma compreensão do crescimento desses recursos, basta olhar para a edição anual do banco de dados da revista Nucleic Acids Research. Em uma das primeiras edições, apenas doze bancos de dados foram listados (48). Em contraste, em 2008 a descrição continha mais de 1.000 bancos de dados e ferramentas de genômica (49). Anualmente a Nucleic Acids Research publica uma edição de banco de dados em biologia molecular, apresentando tanto novos bancos quanto atualização dos já existentes. Em 2017, a 24ª edição anual trouxe 54 bancos de dados recém-criados e 98 atualizações (50). Em 2018, foram apresentados 82 bancos de dados recém-criados e 99 atualizações (51). Um panorama do número atual da quantidade de bancos de dados de biologia molecular existentes podem ser vistos no NAR (Nucleic Acids Research), disponível em: http://www.oxfordjournals.org/nar/database/a/, que atualmente reúne 1.700 bancos de dados relacionados a humanos, animais e plantas. No entanto, até mesmo essa lista de recursos é apenas parte do quadro geral. Hoje, existem muito mais que esse número de recursos, ferramentas e bancos de dados genômicos distintos disponíveis publicamente na Internet.

No Brasil, em 1997 teve início o primeiro projeto de sequenciamento de um genoma, o da bactéria causadora da clorose variegada dos citros (CVC) a Xylella

(30)

fastidiosa, considerada uma das piores pragas de laranjas no estado de São Paulo (52). O sequenciamento genético da bactéria foi completado no ano de 2000, o que ampliou as possibilidades de pesquisa na área no Brasil, e outros projetos foram feitos, como exemplo o projeto Genoma da Cana (finalizado no final de 2000) (53) e o projeto Genoma Humano do Câncer (finalizado em 2002) (54).

1.1.5. ETAPAS PARA RECUPERAÇÃO DE DADOS DE BASES PÚBLICAS: MODELO USADO EM ESTUDOS DE EXPRESSÃO GÊNICA

Assim como na natureza dos dados, há grande heterogeneidade na forma como eles são depositados em bases públicas, e, por conseguinte, em como devem ser recuperados para análise. Na medida em que é pouco factível descrever o passo a passo para o processamento de todos os tipos de dados das “ômicas” atualmente disponíveis, optamos por descrever mais detalhadamente a forma como são processados dados de expressão gênica, com os quais temos mais familiaridade, como modelo da estrutura geral de trabalho com dados públicos. Para estes dados, os repositórios mais comumente utilizados são o GEO e o ArrayExpress que serão abordados aqui.

O repositório “Gene Expression Omnibus” (GEO) foi lançado em 2000 pelo NCBI, em resposta ao interesse da comunidade em uma base de dados público de dados gerados por microarray. Com a ampliação dos métodos para análise em larga escala de expressão gênica, o GEO se tornou um repositório de uso público que arquiva e distribui gratuitamente conjuntos de dados de: microarray, sequenciamento de próxima geração (RNAseq), arrays de metilação, e outras formas de dados genômicos funcionais de alto rendimento, submetidos pela comunidade científica (55).

Um dos desafios destas tecnologias de análise em larga escala é a variabilidade e veracidade de resultados realizados em diferentes laboratórios (reprodutibilidade inter-ensaio) (56,57). Esta variabilidade inclui não apenas os aspectos pré- e analíticos, mas também aspectos pós-analíticos, como a forma como os laudos ou resultados são reportados. Neste contexto, desde a criação do GEO há um esforço internacional para aderência por parte dos pesquisadores que geram os dados a um conjunto mínimo de informações necessárias, de forma que

(31)

os experimentos de microarray posam ser interpretados adequadamente, e comparáveis entre si. Os dados depositados no GEO são compatíveis com as diretrizes MIAME (Minimum Information About a Microarray Experiment), que compilam informações mínimas sobre um experimento de Microarray e MINSEQE (Minimum Information About a Next-generation Sequencing Experiment), que fazem o mesmo para experimentos de sequenciamento de próxima geração. Além do GEO muitos periódicos e agências de financiamento exigem que os dados de microarray estejam em conformidade com os padrões MIAME e MINSEQE (58).

Para acessar a base de dados GEO é necessário entrar no site do NCBI: https://www.ncbi.nlm.nih.gov/geo/. O acesso e download são públicos e não há necessidade de realizar um login para usar. Com exceção de bases de dados cujos autores impuseram restrições quanto ao uso ou distribuição, todos os documentos e arquivos podem ser baixados e reproduzidos gratuitamente (55). Os dados no GEO são organizados em três principais componentes que são fornecidos pelo autor: plataforma, amostra e série.

 A plataforma identifica o insumo tecnológico usado para geração dos dados, podendo representar um chip de microarray ou uma plataforma de RNAseq.  A amostra representa o material testado.

 A série organiza amostras em conjuntos de dados significativos que compõem um experimento, e são vinculados por um atributo comum. Os números de acesso da série têm um prefixo "GSE" (59). Em fevereiro de 2019 o GEO contava com 19.361 plataformas, 2.860.439 amostras e 108.335 séries.

Ao realizar uma busca no GEO o usuário irá perceber que o repositório fornece duas opções de resultados: o GEO DataSets e GEO Profiles. O GEO DataSets armazena as séries, amostras e plataformas, sendo possível acessar os dados de cada uma delas. O GEO Profiles mostra os resultados de expressão de um gene individual em todas as amostras de uma série (60). No caso do GEO DataSets, a busca é normalmente feita por condição de consulta/filtro, tipo de amostra, ou tipo de dado. Já no GEO Profiles a busca é geralmente feita através de um gene individual associado a uma condição. Dois exemplos de resultados são mostrados nas figuras 2 e 3.

(32)

Figura 2: Exemplo de busca feita no GEO DataSets por condição.

Fonte: https://www.ncbi.nlm.nih.gov/gds/?term=thrombosis. Acesso em 06/05/19.

Figura 3: Exemplo de busca feita no GEO profile por gene individual e condição.

Fonte: https://www.ncbi.nlm.nih.gov/geoprofiles/?term=factor+8+and+thrombosis. Acesso em 06/05/19.

(33)

Quanto ao tipo de dados, a categoria intitulada 'Perfil de expressão por array”, que consiste nos estudos realizados com chips de microarray continua sendo o tipo de dado mais prevalente na GEO, embora os estudos de sequenciamento de nova geração (RNAseq) vêm aumentando desde 2008, espelhando as tendências observadas na ciência (61).

Além do acesso aos dados das séries e amostras, a base GEO disponibiliza algumas ferramentas para auxiliar na análise dos resultados, entre as quais destaca-se o GEO2R, que permite a identificação rápida de genes diferencialmente expressos entre grupos de amostras do mesmo experimento (série). O GEO2R apresenta uma interface simples que permite aos usuários executar análises dos dados GEO. A expressão comparativa entre os grupos determinados pelo usuário é expressa em uma tabela de genes ordenados por significância e que podem ser visualizados graficamente. O GEO2R se baseia diretamente os dados fornecidos pelo trabalho original. Mais de 90% dos estudos GEO podem ser analisados desta forma, o que aumenta o potencial de uso do repositório para o público menos afeito à bioinformática (61).

O ArrayExpress é o outro principal banco de dados público para dados genômicos funcionais de alto rendimento, mantido pelo European Bioinformatics Institute (EMBL-EBI), muito semelhante ao GEO em termos do tipo de dados que disponibiliza. Para acessar a base de dados é necessário entrar no site do EBI: https://www.ebi.ac.uk/arrayexpress/. Estabelecido em 2003 tornou-se um dos principais repositórios internacionais para experimentos de genômica funcional baseada em microarray e RNAseq, sendo também citado por muitas revistas científicas como destino para depósitos obrigatórios de dados pré-publicação. Assim como no caso do GEO, os dados depositados devem ser compatíveis com as diretrizes MIAME e MINSEQE (62–64). Também, a consulta pode ser feita por atributos do experimento (ex. doença, tecido, tipo celular, condição de estímulo), por espécie, e tipo de dado (ex. microarray, RNAseq, outros) e também por plataforma usada para cada tecnologia (65).

O conteúdo do banco de dados há seis anos continha 30 mil experimentos e quase um milhão de ensaios. Em fevereiro de 2019 esse número cresceu para

(34)

71.725 experimentos e 2.338.611 ensaios. Em média 20% dos dados são enviados diretamente para o ArrayExpress; o restante é importado do GEO semanalmente. Um exemplo de busca é mostrado na figura 4.

Figura 4: Exemplo de busca feita no ArrayExpress.

Fonte: https://www.ebi.ac.uk/arrayexpress/search.html?query=thrombosis. Acesso em 06/05/19.

1.1.6. ESTRATÉGIAS PARA ANÁLISE DOS DADOS

A análise de dados de expressão gênica em larga escala (o transcriptoma) evoluiu significativamente ao longo dos anos, com melhoria das ferramentas desenvolvidas para este fim. O primeiro passo de um estudo de expressão gênica envolve a geração do dado bruto, que consiste em uma lista com a expressão de todos os genes de interesse de cada experimento (grupo experimental, grupo controle, etc.). Embora esse seja um passo crucial, a análise destas listas é desafiadora por envolver milhares de dados de expressão por gene e por amostra. Para que estas análises sejam possíveis os pesquisadores geralmente conduzem análises secundárias, que permitem uma visão mais global do perfil de expressão de cada condição estudada, que são referidas como “análises funcionais” ou “análises de conjuntos de genes” (GSA do inglês, gene set analysis) (66).

Uma das primeiras perguntas a serem feitas ao planejar uma análise do tipo GSA é qual o tipo de processo biológico que se deseja inferir a partir da lista de expressão dos genes individuais de um experimento. Em outras palavras, listas de

(35)

genes expressos podem ser analisados de várias formas, gerando diferentes hipóteses biológicas (67). Por exemplo, a partir destas listas podemos inferir vias biológicas, redes de interação proteína-proteína (PPI), funções moleculares relacionadas (representadas pelas categorias de ontologias genéticas), entre outras. Um aspecto importante é a complementaridade destas análises. As redes PPI fornecem informações sobre interações biológicas (por exemplo, interações físicas) entre proteínas, mas não implicam uma função comum dos genes a ela associados. Da mesma forma, conjuntos de genes relacionados funcionalmente nas categorias de ontologia gênica sugerem que os genes estão envolvidos em um processo comum, mas não fornecem informações sobre como, ou se, estes genes (ou seus produtos) interagem. Desta forma, os estudos de GSA geralmente lançam mão de mais de uma estratégia, e envolvem uma mistura heterogênea de bases de referência (66).

Estas ferramentas de análise geralmente se organizam em sites na web que permitem que listas de genes definidas pelo usuário sejam usadas em buscas que geram os resultados de GSA de interesse. Estas listas podem ser constituídas por exemplo pelo conjunto de genes diferencialmente expressos (para cima ou para baixo) de uma determinada condição, podendo ou não incluir os valores absolutos de expressão (conforme cada ferramenta). Os resultados destas análises podem incluir a identificação de vias curadas em bases de anotação funcional bem conhecidas como :“Pathway Commons” (68), Kyoto Encyclopaedia of Genomes and Genomes (KEGG) (69), Reactome (70), Gene Ontology (71), entre outras.

1.1.7. O PAPEL DAS META-ANÁLISES NOS ESTUDOS DE EXPRESSÃO GÊNICA

Diante da grande variabilidade dos estudos de expressão gênica, e também do custo destes experimentos quando realizados por grupos isolados, tornou-se atrativo o uso da meta-análise como forma de analisar conjuntos mais representativos de dados de expressão gênica. Do ponto de vista operacional, a meta-análise compreende o uso de técnicas estatísticas para combinar resultados de estudos independentes, mas relacionados. Por meio da meta-análise, podemos aumentar o poder estatístico para obter uma estimativa mais precisa dos diferenciais de expressão gênica e avaliar a heterogeneidade da estimativa geral (72).

(36)

Amplamente conhecido na clínica, onde meta-análises de estudos clínicos são reconhecidas como uma ferramenta poderosa para elucidação de questões polêmicas em que há controvérsia na literatura, esta metodologia é menos conhecida no campo da expressão gênica (73). Ainda assim, seu uso vem aumentando, o que pode ser ilustrado pelo aumento do número de estudos contendo o termo “meta-análise” que cresceu de 1.672 em 2000 para 19.692 em 2018 na base Pubmed.

Além disso, foram publicados nos últimos anos revisões importantes sobre o uso de dados públicos para realização de meta-análises (74), bem como diretrizes sobre métodos estatísticos para sua realização (52,75). Mais recentemente, foram desenvolvidas ferramentas baseadas na web para que pesquisadores sem formação detalhada em bioinformática ou em bioestatística possam conduzir suas próprias meta-análises de estudos de expressão gênica, como o INMEX e o NetworkAnalyst (76,77).

O produto de uma meta-análise é semelhante ao produto de um experimento de microarray ou RNAseq: uma lista de genes diferencialmente expressos entre duas ou mais condições. A diferença consiste apenas na origem das amostras utilizadas em cada cálculo. Desta forma, assim como nestes estudos, as meta-análises são geralmente complementadas por meta-análises funcionais, ou GSA. O potencial das meta-análises em gerarem informações biologicamente relevantes já foi demonstrado em contextos como o diabetes, câncer e doença falciforme (78–80). Nosso laboratório iniciou há alguns anos estudos nesta área, tendo publicado nossa primeira meta-análise na área de doença falciforme (81).

1.1.8. ALGUNS ASPECTOS REGULATÓRIOS E ÉTICOS RELATIVOS AO USO DE DADOS PÚBLICOS GENÔMICOS

Um dos maiores dilemas no uso de dados públicos, e que pode inibir pesquisadores com pouca experiência na área em relação à entrada neste universo são as incertezas quanto a aspectos regulatórios e éticos. Questões como por exemplo: como lidar com consentimento dos sujeitos que forneceram os dados quando os mesmos foram gerados em outra parte do mundo? Ou ainda: devo incluir os autores da base de dados originais como coautores? Ou tenho que pedir

(37)

autorização? A resposta para muitas destas perguntas ainda está sendo construída, mas uma orientação geral é a busca das especificidades de cada base de dados, no material que a acompanha. De forma geral, o consentimento é obtido pelo gerador inicial da base, que deve ter informado os participantes de que os dados poderiam ser compartilhados, naturalmente com todos os cuidados sobre privacidade. E quanto à autoria, uma vez que os dados são depositados em bases públicas, não há a expectativa de coautoria por parte dos geradores dos dados primários. Uma discussão mais detalhada destes aspectos encontra-se nos resultados, na revisão sobre uso de dados públicos.

1.2. TROMBOSES

1.2.1. TROMBOEMBOLISMO VENOSO Definição, Relevância e Princípios do Tratamento

O tromboembolismo venoso (TEV) é uma doença multifatorial que engloba duas manifestações clínicas distintas clinicamente, porém relacionadas do ponto de vista fisiopatológico: a trombose venosa profunda (TVP) e a embolia pulmonar (EP) (82).

O TEV é considerado um dos principais problemas de saúde pública mundial. A incidência da doença na população em geral está relacionada à idade e é associada a alta morbimortalidade (83–86). Com o passar da idade a incidência da doença pode aumentar na proporção de 60 casos para cada 100.000 pessoas com idade entre 50 e 60 anos e aumentar para 300 casos a cada 100.000 pessoas com idade entre 70 e 80 anos (87). Em 2007 um estudo mostrou que a incidência anual ajustada à idade é maior para os homens (130 por 100.000) do que para as mulheres (110 por 100.000) (88). Esses números provavelmente estão subestimados porque não há vigilância abrangente, e o TEV pode ser perdido ou diagnosticado erroneamente, e EP fatais podem não ser determinados devido às baixas taxas de autópsia (89).

No Brasil um estudo realizado pela Universidade Estadual Paulista (UNESP) de Botucatu-SP em 1997 mostrou que a incidência de TEV é de 0,6 a cada 1000 pessoas (90). Dados do Sistema Único de Saúde (SUS) de janeiro de 2008 a agosto de 2010 revelaram que o número de internações atribuídas a este diagnóstico foi de

(38)

85.772. No mesmo período de janeiro de 2008 a agosto de 2010 o SUS estimou que os gastos com internações por TEV foi de R$ 46.673.330,73, sem contar os gastos com o tratamento pós diagnóstico entre outros, ressaltando o impacto financeiro da doença e sua importância em relação ao investimento em profilaxia (91).

Após o diagnóstico da doença é fundamental que o tratamento seja iniciado de imediato. O principal objetivo do tratamento é interromper a progressão da trombose, reduzindo assim os riscos de EP ou de comprometimento funcional do sistema venoso profundo, que pode originar a chamada síndrome pós-trombótica (SPT), uma complicação crônica da TVP. Em casos selecionados, em geral com maior gravidade, o tratamento também pode incluir a retirada do trombo, através de trombólise farmacológica ou cirúrgica (92). Em geral, o tratamento do TEV é feito através da administração de anticoagulantes por um período de 3 a 6 meses, seguido por uma avaliação de estratificação de risco que definirá se o paciente deve ou não manter uma profilaxia secundária para prevenir novos eventos (93,94). Os medicamentos classicamente utilizados na fase aguda da doença são a heparina ou fondaparinux, que são anticoagulantes de ação rápida, em concomitância com os anticoagulantes orais antagonistas de vitamina K, mantidos no longo prazo (95). Mais recentemente, anticoagulantes de ação direta (também chamados de alvo-específicos), que inibem a trombina ou o fator X ativado foram incorporados ao arsenal terapêutico contra o TEV, podendo em muitos casos ser usados desde o momento do diagnóstico, até o final do tratamento (96).

Como destacado anteriormente, a principal complicação do TEV é a EP, que pode levar à morte ou a sequelas funcionais graves. Ela ocorre quando o trombo não aderido à parede venosa se fragmenta e migra, em direção à artéria pulmonar. Dados apontam que a incidência de EP é de aproximadamente 20 a 45 casos para cada 100.000 pessoas, e sua mortalidade é variável, girando em torno de 2 a 11% (Silverstein MD, et. al 1998). Outra complicação da doença que ocorre de forma tardia é a SPT que é resultado dos danos causados pelo trombo ao sistema venoso profundo. Mais especificamente, a destruição das válvulas que impedem o refluxo do sangue venoso a cada batida do coração resulta em aumento da pressão no sistema venoso, cujas consequências clínicas são edema, dor, alterações tróficas na pele e até úlceras de difícil cicatrização (97). Embora não seja fatal, a SPT é extremamente deletéria para a qualidade de vida do paciente, e não existem até hoje tratamentos

(39)

satisfatórios para esta complicação. A prevalência de SPT nos pacientes com TVP é de 20‐40%, após os primeiros 2 anos do diagnóstico (98).

O TEV é uma doença multifatorial que resulta de uma complexa interação entre fatores congênitos e adquiridos. São raras as situações em que um evento de TEV pode ser atribuído a um único fator causal. Os fatores de risco adquiridos mais conhecidos são: idade avançada (há um aumento progressivo do risco com a idade), neoplasias, politrauma, obesidade, síndrome do anticorpo antifosfolípide (SAF), doenças inflamatórias (intestinais, LES, Behcet, etc.), síndrome nefrótica, doenças mieloproliferativas crônicas e anemias hemolíticas (hemoglobinúria paroxística noturna, doença falciforme, entre outras). Há também fatores de risco adquiridos transitórios que incluem: cirurgias, imobilização prolongada, cateteres venosos, gestação e puerpério, uso de estrógenos (tanto sob a forma de contraceptivos orais quanto de terapia de reposição na menopausa) e viagens longas (99).

Já os fatores congênitos mais conhecidos são: deficiências de anticoagulantes naturais (antitrombina, proteína C ou S) e variantes gênicas como o Fator V de Leiden e a Mutação G20210A do gene da protrombina (99). Estas cinco condições são frequentemente chamadas coletivamente de trombofilias hereditárias. No entanto, a presença de história familiar, mesmo na ausência de uma destas trombofilias, é outro fator de risco importante para o TEV, o que ilustra de forma contundente que parte significativa das alterações hereditárias que aumentam o risco de TEV são ainda desconhecidas (Zöller B, et. al 2015). De fato, quando pacientes com TEV espontâneo, isto é, sem a presença de fatores de risco adquiridos, são investigados para a presença destas trombofilias hereditárias conhecidas, cerca de 40% dos pacientes permanecem sem um fator identificável (101).

Um modelo bem ilustrativo para explicação da interação de múltiplos fatores na fisiopatologia da TEV é o do limiar trombótico (102). De acordo com este modelo, cada indivíduo apresentaria um limiar trombótico que se ultrapassado, resultaria em um TEV. Com o passar dos anos nos aproximaríamos cada vez mais deste limiar, que, no entanto, só seria cruzado quando outros fatores de risco trombótico se associassem. Desta forma, quanto maior a idade, maior a chance de um fator adicional causar uma trombose. Analogamente, TEV só ocorreriam em jovens

(40)

quando um fator muito importante, ou uma associação de fatores (ex. predisposição familiar + uso de estrógenos) se associassem (102).

Tabela 1: FATORES DE RISCOS DO TEV

Adquiridos Hereditários Mistos

Idade Cirurgias  Antitrombina  Fator VIII. Obesidade Politrauma  Proteína C  Fator IX Neoplasias Gestação e puerpério  Proteína S  Fator XI Hemólise crônica Estrógenos Fator V Leiden. Resistência à PCa

SAF e LES* Imobilização/estase Mutação G20210A

(F2)  Homocisteína Doenças

inflamatórias Cateteres venosos Sepse Síndrome nefrótica

* SAF: Síndrome do Anticorpo Antifosfolípede. LES: Lúpus Eritematoso Sistêmico. Fonte: A autora.

Se a decisão de iniciar a anticoagulação em um paciente com TEV não exige qualquer dado adicional além da confirmação do diagnóstico, a decisão de prolongar este tratamento além dos 3 a 6 meses recomendados para todos os pacientes é extremamente complexa (103), e só se justificaria quando os riscos de complicações graves ou fatais de sangramento decorrentes da anticoagulação (cerca de 0,5 a 1% ao ano) fossem menores que o risco de complicações fatais de um novo evento de TEV. É aqui, neste ponto crítico de tomada de decisões, que residem os maiores dilemas clínicos, pois o risco de recorrência da trombose é muito variável, e determinado por fatores ainda desconhecidos. Para que nossa capacidade de predição seja ampliada, é essencial um incremento no conhecimento sobre a fisiopatologia do TEV, e não por acaso a identificação de novos fatores fisiopatológicos que possam ser usados como preditores ou biomarcadores de risco é hoje uma das áreas mais ativas na pesquisa nesta área. Em termos gerais, o risco de recorrência de TEV em pacientes que tiveram um primeiro episódio da doença em um período de 5 anos é de 25 a 30% (104). Estima-se que 30-50% dos pacientes têm reincidência da doença em 10 anos (105).

O risco de recorrência é muito baixo em casos de TEV associado a fatores de risco transitórios, removíveis, como por exemplo cateteres venosos, cirurgias, ou imobilização por viagens. Nestes pacientes, a extensão da anticoagulação além de 3 meses não se justifica. No outro extremo, situam-se os pacientes com fatores de

Referências

Documentos relacionados

consentimento das entidades convenentes, as empresas recolherão a título de contribuição social, até o dia 10 (dez) de cada mês, o valor de R$ 8,46 (oito reais e quarenta

Cezar Tau- rion (2013) arrisca nessa tarefa, ao afirmar que existem quatro atividades dentro do processo de análise de dados em cenário de Big Data: a coleta dos dados, em que

O caminho para a proteção da vida privada não pode ser em vista do seu aspecto material, mas sim do seu aspecto imaterial. A privacidade do indivíduo deve

Deste modo, defende-se a tese de que a utilização dos grandes grupos de dados (Big Data) em conjunto com o processo de inteligência competitiva pode gerar vantagem

Bhreathnach investiga há algum tempo questões relacionadas com morte e práticas funerárias na Irlanda; a realeza na Pré-História e na Primeira Idade Média; historiografia da

Industrial Internet Serviços Parcela de serviços realizados digitalmente em relação ao total de serviços Parcela do componente digital dos fluxos globais de bens, dados

Como o período de ventos mais intensos está relacionado aos eventos de estiagem, é no segundo semestre que a dinâmica morfológica interfere diretamente na dinâmica de uso e

Nos termos do artigo 1.046 do CPC, a legitimidade ativa é de quem não é parte no processo em que foi determinado o ato de apreensão judicial. Ressalto que a propositura da