• Nenhum resultado encontrado

Genomas humanos individuais

1. Sequenciação do genoma humano

1.3. Genomas humanos individuais

A conclusão do PGH permitiu desafiar a Genética Humana a uma transição para a Genómica Humana e o advento das tecnologias NGS tornou esse pressuposto exequível. Atribuindo ao estudo do genoma uma realidade até então inatingível, rapidamente surgiu a intenção de sequenciar genomas individuais (32). Em 2007, Levy e colaboradores publicaram a primeira sequência de um genoma humano individual (Craig Venter), assemblado de novo a partir de 32 milhões de reads, com ≈700 pb de comprimento, obtidas pelo método de Sanger (33). A dificuldade de assemblar de novo reads curtas provenientes de NGS, a par com a existência de uma sequência de referência, motivaram a obtenção de genomas individuais por re-sequenciação. Esta abordagem promove o mapeamento de cada read a uma sequência do genoma de referência, levando ao surgimento de uma sequência consenso que é semelhante mas não necessariamente idêntica à referência. Esta sequência de referência do genoma humano é uma sequência consenso haploide, derivada de múltiplos indivíduos (34). Em 2008 surgiu o primeiro

9

genoma humano completo sequenciado pela tecnologia NGS (pirosequenciação), através de uma abordagem de re-sequenciação (35). A sequência genómica que protagonizou tal marco pertence a James Watson e serviu como guia para o conjunto de genomas individuais que se seguiram desde então. Ainda no ano de 2008, Bentley e colaboradores sequenciaram o genoma completo de um indivíduo nigeriano, pela primeira vez através da tecnologia NGS que utiliza terminadores reversíveis marcados com fluorocromos, seguindo-se a obtenção da primeira sequência genómica de um indivíduo asiático sequenciada pela mesma tecnologia (36, 37). Em 2009 surgiu a sequência do primeiro indivíduo coreano (38). No ano seguinte, foi sequenciado o genoma do primeiro indivíduo irlandês e desde então outros genomas de variadas populações se seguiram, pelas diversas tecnologias de sequenciação (39-43).

Não obstante do notável esforço empregue nos últimos 5 anos para a leitura da sequência de bases que definem determinados indivíduos, claro está que tal não significa a compreensão dessa leitura. Compreender o genoma humano passa por conhecer a função dos genes, das consequentes proteínas e a interligação destas em mecanismos biomoleculares. Mais, compreender os genomas humanos individuais denota a necessidade de encontrar as diferenças entre esses genomas e assimilar o seu significado. No fundo, é a procura pela variação existente no genoma (15).

1.3.1. Variação do genoma humano

O genoma humano é constituído por cerca de 3 mil milhões de pb de DNA, divididos por 46 cromossomas nucleares (44 autossomas e 2 sexuais) e 1 cromossoma mitocondrial consideravelmente menor. A atual estimativa do número de genes que constituem todo o genoma ronda os 23.000, distribuídos de forma não-aleatória pelos cromossomas, representando as zonas de codificação destes menos de 2% da totalidade genómica (44). A variação genética, que existe ao longo de toda a extensão do genoma, denota uma enorme importância funcional e como tal tem sido o alvo da análise de genomas, a vários níveis. Estima-se que dois indivíduos aleatoriamente escolhidos tenham sequências 99,9% idênticas. Sensivelmente 0,1% da variabilidade no genoma humano representa ≈3 milhões de alterações por indivíduo (45). Efetivamente, já em 1902 era estabelecido o conceito de “individualidade química”, contudo só com a disponibilidade da

10

sequência humana completa, a caracterização dos diferentes tipos de variantes genéticas foi possível (46).

Polimorfismos de um único nucleótido (SNPs) são variantes de uma única base na sequência de DNA e representam a forma mais abundante de variação no genoma. No que à abundância diz respeito, seguem-se pequenas inserções/deleções (INDELs), variantes que são mais drásticas em relação a alterações na sequência, como na estrutura de codões e potencialmente na funcionalidade dos elementos genéticos transcritos (2). Uma fração de INDELs, que se manifesta por um número variável de repetições em tandem, é outra forma de variação conhecida como short tandem repeats (STRs). Esta forma de variação consiste numa pequena sequência de comprimento variado que é repetida por um número de vezes também ele variável (microssatélites e minisatélites). Copy number variants (CNVs) e outras alterações estruturais (SVs) incluem regiões genómicas de duplicações, deleções, inversões e translocações. Associadas a grandes alterações na sequência genómica, este tipo de variantes representam, por norma, um desequilíbrio no balanço biológico normal da diploidia num determinado locus, estando por isso associadas em grande parte a genomas tumorais ou com doenças raras de acentuada gravidade (33). Porque a informação das variantes é extremamente útil em vários aspetos genéticos de valor clínico e populacional, alguns projetos têm sido desenvolvidos no sentido de caracterizar variantes pontuais (SNPs e INDELs) e estruturais (CNVs e SVs) em diferentes populações (47-49). O projeto HapMap surgiu de um consórcio internacional, com vista à criação de um catálogo de variantes genéticas comuns que ocorrem nos seres humanos (50). Este visa caracterizar diferentes populações com ancestralidade africana, asiática e europeia, relativamente a variantes comuns, à sua frequência e aos seus padrões de expressão, nomeadamente a caracterização de haplótipos. O impacto do HapMap tem sido enorme e decisivo na investigação em vários campos, desde o estudo de doenças complexas, à genética de populações e à genética evolutiva (48). No encalço dos dados disponíveis, a realização de Genome-Wide Association Studies (GWAS) beneficiou de um enorme impulso. Os GWAS estabelecem uma relação estatística entre uma ou mais variantes de uma determinada região genómica, com a presença ou ausência da condição clínica (51). Não obstante do valor destes estudos, estes denotam uma perda de herdabilidade, na medida em que as variantes comuns (frequência do alelo minor – MAF>5%) que estes associam com determinada característica, apenas contribuem para uma pequena fração do genótipo

11

responsável (<10%). Deste modo, surge a necessidade de catalogar variantes de baixa frequência ou raras, que possam estar na causa de determinado estado clínico (MAF<5%) (52). Assim, surgiu em 2007 o projeto internacional dos 1000 Genomas (53). O objetivo deste é encontrar variantes genéticas com frequência de pelo menos 1% na população estudada, pela sequenciação de ≈2.500 indivíduos de mais de 20 etnias. No âmbito dos 1000 Genomas, foi publicado em 2012 o resultado da sequenciação de todo o genoma com baixa cobertura (2 – 6x) e a sequenciação de todo o exoma (50 – 100x) de 1.092 indivíduos de 14 populações diferentes do continente europeu, asiático, africano e americano. Até ao momento, o projeto encontrou 40 milhões de variantes genéticas, das quais 38 milhões são SNPs (54% destes são novos SNPs), 1,4 milhões de INDELs e 14.000 CNVs/SVs (47). Recentemente surgiu o projeto de sequenciação de exomas (ESP), do National Heart, Lung and Blood Institute (NHLBI), o qual conduziu à sequenciação do exoma de 6.515 indivíduos, com ancestralidades afroamericana e americana europeia, com o objetivo de catalogar apenas o conjunto de variantes que se encontram na região de codificação de proteína (54).

Embora o estudo das variantes, anteriormente descritas, seja preponderante na evolução da caracterização funcional da sequência de bases lida, um outro conjunto de características é decisivo em termos funcionais. As características epigenéticas, como o enrolamento da cromatina e a complexa variedade de histonas e proteínas não histonas, influenciam a atividade de diversos elementos genómicos (55). Estes aspetos também são explorados no estudo da variabilidade, sendo altamente dinâmicos e subjacentes ao controlo da expressão de genes e de outras sequências genómicas com profunda relevância na função celular e do organismo. Ciente de toda esta panóplia que figura no genoma e que é determinante na obtenção de estudos funcionais, surge em 2003 um consórcio internacional denominado Enciclopédia de Elementos do DNA (ENCODE), fundado pelo National Genome Research Institute (NHGKI) (56). O ENCODE visa descobrir elementos funcionais não codificantes no genoma humano, usando informação da cromatina; modificações nas histonas; posicionamento no nucleossoma; metilação do DNA; transcrição e informação acerca dos locais específicos de ligação de fatores, de forma a identificar um novo conjunto de elementos reguladores no DNA (57).

12

Documentos relacionados