• Nenhum resultado encontrado

Sequenciamento de alto desempenho para quantificação da doença residual mínima em leucemia linfoide aguda

N/A
N/A
Protected

Academic year: 2021

Share "Sequenciamento de alto desempenho para quantificação da doença residual mínima em leucemia linfoide aguda"

Copied!
111
0
0

Texto

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS

INSTITUTO DE BIOLOGIA

GUILHERME NAVARRO NILO GIUSTI

SEQUENCIAMENTO DE ALTO DESEMPENHO PARA

QUANTIFICAÇÃO DA DOENÇA RESIDUAL MÍNIMA EM

LEUCEMIA LINFÓIDE AGUDA

CAMPINAS

(2)

GUILHERME NAVARRO NILO GIUSTI

SEQUENCIAMENTO DE ALTO DESEMPENHO PARA QUANTIFICAÇÃO DA DOENÇA RESIDUAL MÍNIMA EM LEUCEMIA LINFÓIDE AGUDA

Orientador: José Andrés Yunes

CAMPINAS

(2019)

Dissertação apresentada ao Instituto de Biologia da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestre em Genética e Biologia Molecular, na Área de Genética Animal e Evolução

ESTE TRABALHO CORRESPONDE À

VERSÃO FINAL DA DISSERTAÇÃO

DEFENDIDA PELO ALUNO GUILHERME NAVARRO NILO GIUSTI E ORIENTADA PELO PROF. DR. JOSÉ ANRÉS YUNES

(3)
(4)

Campinas, 22 de Fevereiro de 2019

COMISSÃO EXAMINADORA

Prof. Dr. José Andrés Yunes

Prof. Dr. Márcio José da Silva

Dra. Juliana Godoy Assumpção

Os membros da Comissão Examinadora acima assinaram a Ata de Defesa, que se encontra no processo de vida acadêmica do aluno.

(5)

AGRADECIMENTOS

Em primeiro lugar, agradeço à minha mãe, Viviane, por sempre ter me apoiado e dado condições de me dedicar às minhas curiosidades e aos estudos. A estrutura e carinho que você me proveu ao longo de toda a minha vida foram e sempre serão essenciais a essa jornada. Você é o meu maior exemplo.

À minha namorada, Caroline, por todo amor e compreensão, mesmo nos momentos mais turbulentos. Sem o seu apoio, esse momento teria sido infinitamente mais complicado. Que nós possamos enfrentar muitos outros desafios lado a lado e que eu consiga te retornar pelo menos metade do suporte que você me proveu.

A toda a minha família, que sempre estive presente quando a minha maior necessidade era Raiz e Casa. Agradeço especialmente aos meus avós, Filadelfo e Dalva, por terem originado essa família maravilhosa e servirem como grande fonte de inspiração. Se eu escolhi trabalhar com pesquisa em saúde, a razão foi você, vô. Outro agradecimento especial aos meus primos, por terem sido por uma vida toda os irmãos que nunca tive.

Agradeço também ao meu pai, Carlos. Apesar da distância, você nunca me faltou com amor e participação na formação do meu caráter, sendo sempre um grande exemplo positivo a ser seguido.

Agradeço também ao meu orientador, Prof. Dr. Andrés, por acreditar em meu potencial em desenvolver um trabalho de importância tão significativa. Aos seus conselhos, prontidão em sempre auxiliar no desenvolvimento do projeto e apoio. Que nossos próximos trabalhos em conjunto possam ser tão bem-sucedidos quanto essa jornada.

A todos os amigos do Centro de Pesquisa Boldrini, seja pelos conselhos técnicos e acadêmicos, seja pela amizade constante que faz toda diferença em criar um ambiente prazeroso de trabalho. Em especial, agradeço à Dra. Patrícia por toda a paciência em me auxiliar e ensinar ao longo de todo o desenvolvimento desse projeto, além de todos os conselhos, conversas e amizade. Agradeço também especialmente

(6)

aos bagaceiros Zeni, Diego, Leo e Victor. A amizade de vocês não tem preço e se estende para muito além dos laboratórios dessa vida acadêmica.

Agradeço a todos outros amigos verdadeiros que fizeram e fazem parte da minha vida, ao longo de toda a minha nômade jornada por esse mundo. Dizem que os amigos são a família que a gente escolhe, e nesse caso isso não poderia ser mais verdadeiro. Vocês são incríveis.

Um agradecimento mais que especial a todas às crianças que cederam o material biológico que possibilitou o desenvolvimento desse trabalho. Desse modo, a luta de vocês é convertida em esperança e também em apoio para que cada vez menos crianças tenham que lutar.

Agradeço às instituições que propiciaram o suporte financeiro para o desenvolvimento desse projeto. Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pelo apoio durante o primeiro ano do mestrado. Ao Programa Nacional de Apoio à Atenção Oncológica (PRONON, SIPAR 25000.057709/2015-01), Instituto Ronald McDonald e Fundação Bradesco por outras verbas que permitiram a realização desse estudo.

Por fim, agradeço à Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) pelo financiamento do projeto (processo n° 2017/03942-8) por meio do convênio com a Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

(7)

RESUMO

Sequenciamento de alto desempenho para quantificação da Doença Residual Mínima em Leucemia Linfóide Aguda

A leucemia linfoide aguda (LLA) é o câncer mais comum na criança. Os atuais protocolos de tratamento da LLA pediátrica alcançam índices de sobrevida livre de doença que se aproximam de 90%. Parte desse sucesso se deve à alocação dos pacientes em diferentes grupos de risco, segundo fatores prognósticos obtidos ao longo do tratamento. A resposta inicial ao tratamento, avaliada pela quantificação das células leucêmicas residuais do paciente, ou doença residual mínima (DRM), é um dos mais importantes fatores para a identificação desses grupos de risco. O protocolo do Grupo Brasileiro de Tratamento da Leucemia Infantil (GBTLI LLA-2009), usa a DRM dos dias 15 e 35 do tratamento, avaliada por citometria de fluxo e por PCR quantitativo (qPCR) respectivamente, para alocação dos pacientes nos grupos para diferentes esquemas de tratamento quimioterápico. A avaliação da DRM por citometria de fluxo (DRM-CF) e qPCR (qPCR DRM) é cara, exige muita experiência e demanda análise imediata (citometria) ou demorada das amostras (qPCR), dificultando seu uso em abrangência nacional. O número de crianças que têm se beneficiado do exame de DRM é de apenas 100 por ano (3,2%). Nesse projeto padronizou-se o uso do sequenciamento de última geração (NGS) para a quantificação da DRM em crianças com LLA-B derivada, método que apresenta vantagens em termos de rapidez, custos e escalabilidade. Uma vez padronizado, o método de análise de DRM por sequenciamento (NGS DRM) foi validado em amostras de LLA-B derivada pediátrica retrospectivamente analisadas no Centro Infantil Boldrini. Resultados NGS DRM foram comparados a resultados de qPCR DRM para as mesmas amostras, obtendo uma taxa de satisfatoriedade de 88,5% e um coeficiente de correlação de Pearson de 0,86. Como próximos passos, esperamos continuar o aperfeiçoamento do método, elevando a sua sensibilidade e acurácia, adicionando outros marcadores associados à LLA-B derivada pediátrica ao protocolo e adaptando-o para outras variedades de leucemias.

(8)

ABSTRACT

Acute Lymphoblastic Leukemia Minimal Residual Disease quantification by high throughput sequencing

Acute Lymphoblastic Leukemia (ALL) is the most common cancer in children. The current childhood ALL treatment protocols achieve disease-free survival rates close to 90%. Part of this success is due to the allocation of patients in different risk groups, according to prognostic factors assessed during the treatment. Initial treatment response, assessed by the quantification of the patient’s residual leukemic cells, or Minimal Residual Disease (MRD), is one of the most important factors to identify these risk groups. The protocol of the Brazilian Group for the treatment of ALL (GBTLI LLA-2009) uses MRD at days 15 and 35, evaluated by flow cytometry and qPCR respectively, to allocate the patients into groups for different chemotherapy treatment schemes. Flow cytometry and qPCR MRD assessment are expensive, require a lot of experience from the analyst and demand immediate analysis (cytometry) or a multistep 25 days-long analysis (qPCR). These factors hamper these methods’ broad utilization in Brazil. The number of children in the country who are able to take advantage of the MRD exam is 100 a year (3,2% of total pediatric ALL cases in our country). In this Project, we standardized MRD assessment in childhood ALL by Next Generation Sequencing of IgH rearrangements. This assay is both cheaper and faster than the conventional ones and has high scalability potential. Once standardized, this method was validated using pediatric pre-B ALL samples previously analyzed at Centro Infantil Boldrini. The NGS MRD results were compared to the qPCR MRD ones, achieving a result satisfaction rate of 88,5% and a Pearson correlation coefficient of 0,86. The next steps are to keep polishing the method, by increasing its sensitivity and accuracy, adding additional established pediatric pre-B ALL markers to the protocol and adapting the method for other types of leukemia.

(9)

SUMÁRIO

I. INTRODUÇÃO 11

1. Leucemia Linfoide Aguda 11

2. Rearranjo V(D)J 12

3. Doença Residual Mínima 15

4. Detecção da DRM 16

5. DRM por Next Generation Sequencing (NGS) 19

5.1. Obtenção da Frequência do Clonotipo Leucêmico em DNA Linfocítico Total 19 5.2. Normalização da Frequência do Clonotipo Leucêmico em DRM 24

5.3. Vantagens da NGS DRM 27

II. OBJETIVOS 29

III. MÉTODOS 30

1. Clonagem das Sequências Spike-In Control 32

2. Preparo do Pool de Spike-In Control 34

3. Seleção das Amostras para Determinação de NGS DRM 35

4. Isolamento das células mononucleadas 36

5. Quantificação da DRM por NGS 37

IV. FORMA DE ANÁLISE DOS RESULTADOS 40

V. RESULTADOS 42

1. Padronização da Amplicon PCR 42

1.1. Teste de Enzimas: Phusion vs Tth 42

1.2. Touchdown PCR 44

1.3. Redução da Concentração de Primers 46

1.4. Teste da Enzima GoTaq G2 Hot Start DNA Polymerase 48

2. Número de Ciclos de PCR 50

(10)

4. Spike-in Control 55 4.1. Teste do uso de Spike-In Controls para Determinar NGS DRM 55 4.2. Teste do uso de Spike-In Controls linearizados para Determinar NGS DRM 58 4.3. Teste de Amplificação Diferencial de Moléculas Spike-In Control 61

5. Validação do Método de NGS DRM 64

5.1. Desenho Experimental 64

5.2. Análise da Qualidade dos Dados do Sequenciamento 65 5.3. Comparação do Número de Clonotipos Leucêmicos Identificados por NGS DRM e qPCR

DRM 66

5.4. Comparação entre qPCR DRM e NGS DRM 66

5.5. Determinação de Subamplificação de Sequências Spike-In Control 71 5.6. Comparação entre qPCR DRM e NGS DRM Excluindo o Terceiro Subset 73 5.7. Comparação entre qPCR DRM e Frequência dos Clonotipos Leucêmicos 75 6. Comparação de Custo entre qPCR DRM e NGS DRM 78

VI. DISCUSSÃO 79

VII. REFERÊNCIAS BIBLIOGRÁFICAS 88

VIII. ANEXOS 92

Anexo 1 - Tabela 1S 92

Anexo 2 - Termo de Consentimento GBTLI LLA-2009, Baixo Risco 95 Anexo 3 - Termo de Consentimento GBTLI LLA-2009, Alto Risco 99

Anexo 4 - Termo de Consentimento URB/Boldrini 103

Anexo 5 - Parecer Consubstanciado CEP 105

(11)

I. INTRODUÇÃO

1. Leucemia Linfoide Aguda

A Leucemia Linfoide Aguda, comumente denominada LLA, é uma neoplasia maligna cujo principal atributo é a proliferação monoclonal de células precursoras de linfócitos cancerosas na medula óssea e no sangue periférico, ocorrendo com maior frequência em linfócitos B (Woo et al., 2014). Essa enfermidade é altamente prevalente em crianças, sendo responsável por cerca de 25% dos casos de câncer nesse grupo etário (Howlader et al., 2013). Em função dos diversos esforços da comunidade científica internacional, a taxa de sobrevida livre dessa doença em pacientes pediátricos atualmente vem se aproximado de 90% (Pui et al., 2009; Kansagra et al., 2018; Kato e Manabe, 2018). Apesar desse sólido avanço, outros dados explicitam o longo caminho ainda a ser percorrido no combate à LLA infantil. Como exemplo, crianças que apresentam recaídas após remissão clínica, têm entre 20 e 35% de probabilidade de cura (Nguyen et al., 2008; Reismüller et al., 2009).

Ao longo do ano de 2018, segundo o Instituto Nacional de Câncer, estimou-se a ocorrência de 420.000 novos casos de neoplasias no Brasil, dos quais 12.500 correspondem a casos infantis e em adolescentes de até 19 anos (INCA, 2017). Desses, 3125 devem ter correspondido à Leucemia Linfoide Aguda, segundo a conjectura percentual dessa doença.

(12)

2. Rearranjo V(D)J

Os linfócitos das linhagens B e T, como células efetoras do sistema imune adaptativo, devem ser capazes de reconhecer de maneira altamente específica uma vasta gama de antígenos. O elevadíssimo grau de polimorfismos existente nas imunoglobulinas (Ig) e receptores de células T (TCR), responsáveis pela identificação de antígenos, deriva de um mecanismo de rearranjo somático nos loci gênicos responsáveis pela expressão dessas moléculas. Esse processo recombina os éxons denominados Variável (V), Diversidade (D) e Junção (J) desses genes de maneira diferente em cada célula, além de adicionar e remover aleatoriamente alguns nucleotídeos nas regiões de intersecção desses éxons (Figura 1). Particularmente para o gene da cadeia pesada de imunoglobulina (IgH), relevante para esse projeto, existem 7 famílias de éxons V (denominados VH), 7 famílias de éxons D (denominados DH) e 6 famílias de éxons J (denominados JH). Apesar de toda a sua variabilidade, esses segmentos possuem algumas regiões razoavelmente conservadas para cada família de éxons, denominadas frameworks (Abbas et al., 2017)

(13)

Desse modo, o processo de recombinação V(D)J permite que cada linfócito gerado possua uma molécula de reconhecimento distinta e virtualmente única (Tonegawa S, 1983). Esse processo de rearranjo singular e em certo grau aleatório do DNA de cada precursor de linfócito resulta, portanto, em uma população de células B e T contendo um vasto repertório de reconhecimento de antígenos. Cada variante de sequência gerada por um rearranjo V(D)J presente em uma população de linfócitos é denominada um clonotipo.

Nos casos de LLA-T e LLA-B derivada, no entanto, um precursor de linfócito (denominado linfoblasto) neoplásico passa a se reproduzir de maneira descontrolada.

Figura 1. Diagrama esquemático do rearranjo V(D)J de genes Ig e TCR. (A) esquema do gene TCRB, mostrando sequência de eventos do rearranjo V(D)J até expressão do receptor TCR. (B) A sequência do rearranjo V(D)J para cada novo linfócito gerado é virtualmente única.

(14)

Essa proliferação excessiva leva a população linfocítica a ser tomada por clones desse linfoblasto canceroso, que possuem todos um mesmo clonotipo V(D)J (Levy et al., 1977).

(15)

3. Doença Residual Mínima

Uma das principais ferramentas para acompanhar a resposta ao tratamento na LLA é a avaliação da Doença Residual Mínima, ou seja, a apreciação quantitativa de células malignas presentes na medula óssea ou no sangue periférico não detectáveis através de análises morfológicas (Stock e Estrov, 2000). Valores de DRM são expressos em frequência de um linfoblasto leucêmico pela quantidade de células mononucleadas total da amostra (Cavé et al., 1998). A avaliação desse dado em diferentes time points ao longo do tratamento possibilita uma análise altamente sensível da redução ou do aumento da quantidade de linfócitos neoplásicos no paciente, funcionando assim como o mais poderoso fator prognóstico individual para seu risco de recaída. Essa informação acerca da dinâmica da população de células cancerosas permite classificar os pacientes em diferentes grupos de risco e, consequentemente, modular o seu tratamento, reduzindo seus efeitos colaterais e elevando as suas taxas de sobrevida (Wasserman et al., 1992; Brisco et al., 1994; Gajjar et al., 1995; van Dongen et al., 1998; Ryan et al., 2009; Conter, 2010).

Alguns parâmetros fundamentais para a análise da DRM são a sensibilidade do ensaio utilizado, que deve ser capaz de detectar no mínimo um linfócito maligno em 10.000 células saudáveis (10-4); o time point no qual o exame é realizado; e a associação do valor percentual de células leucêmicas residuais à situação clínica do paciente, existindo um consenso de que níveis acima de 10-3 estão associados a maiores chances de recaída. Ainda, o valor prognóstico da DRM depende da padronização e verificação desses parâmetros em função do protocolo de tratamento utilizado (Jacquy et al., 1997; Cavé et al., 1998; Ryan et al., 2009; Conter, 2010).

(16)

4. Detecção da DRM

Antes do desenvolvimento de métodos mais sensíveis, estudos das taxas de doença residual de pacientes com LLA eram realizados através da contagem de linfoblastos em esfregaços de medula óssea analisados em microscópios. No entanto, essa análise morfológica apresenta uma sensibilidade máxima de apenas 5 células leucêmicas em 100 células normais (5 x 10-2). A partir do início da década de 1990, essa dinâmica populacional das células leucêmicas, já denominada doença residual mínima, passou a ser investigada por PCR convencional seguida de quantificação por Southern Blot (Yamada et al., 1990; Cavé et al., 1998; Biondi et al., 2000).

O surgimento de técnicas modernas de biologia molecular contribuiu para o aperfeiçoamento dos métodos de análise da DRM, sendo mais utilizados atualmente a Citometria de Fluxo (CF), baseada no imunofenótipo distintivo das células de LLA, e o PCR quantitativo em tempo real (qPCR) dos rearranjos de genes Ig e TCR (van Dongen et al., 2016). Os ensaios de qPCR fazem uso do rearranjo V(D)J sofrido por esses genes no início da diferenciação linfóide, que gera sequências diferentes e únicas para cada um dos linfócitos gerados (Figura 2) (Verhagen et al., 2000). Já os exames baseados na CF detectam essas células através de painéis de marcadores de superfície presentes em populações celulares leucêmicas (Coustan-Smith et al., 1998). A natureza majoritariamente monoclonal da LLA resulta do fato das células malignas terem origem em apenas um linfoblasto neoplásico e, portanto, possuírem moléculas de superfície ou genes Ig/TCR idênticos entre si, mas diferentes do restante da população linfocítica, permitindo a sua identificação pelos experimentos previamente citados. (Verhagen et al., 2000).

(17)

Enquanto esses dois procedimentos para detecção da DRM têm sido largamente utilizados com relativo sucesso, ambos apresentam limitações-chave. Em relação à citometria de fluxo, por exemplo, existe dificuldade na obtenção de níveis de sensibilidade estáveis, uma vez que os linfoblastos malignos podem ser confundidos pelo método com células normais em regeneração. Mesmo quando uma sensibilidade estável é atingida, níveis melhores que 10-4 não costumam ser alcançados, mesmo quando utilizando técnicas de citometria com 6 a 8 cores. Por fim, a interpretação dos dados gerados é bastante dependente do nível de treinamento e experiência do operador, adicionando um viés subjetivo ao resultado final (van Dongen et al., 2016).

A PCR quantitativa em tempo real, por outro lado, consegue atingir níveis de sensibilidade mais satisfatórios, chegando à ordem de 10-5 (Ryan et al., 2009). O nível de sensibilidade varia em função da frequência com a qual o rearranjo utilizado como marcador ocorre em casos de LLA e em linfócitos saudáveis; da sua estabilidade, que é determinada pela sua tendência a sofrer rearranjos secundários (quanto maior essa frequência, menor a estabilidade); e das características de sua “cicatriz” V(D)J, como o número e tipo de nucleotídeos N inseridos entre as regiões recombinadas. Para os casos de Leucemia Linfoide Aguda B-derivada, o protocolo internacional europeu AIEOP-BFM ALL 2000 considera IgH como o biomarcador mais promissor (van Dongen et al., 2003).

No entanto, o uso da qPCR para a determinação de DRM em casos desse câncer também enfrenta desvantagens e limitações. O principal desses empecilhos é a natureza laboriosa, demorada e cara do método, o que dificulta a universalização

Figura 2. Princípio da análise de DRM por qPCR. A análise da DRM por qPCR tira proveito do fato da inserção de nucleotídeos N/P no processo de recombinação V(D)J ser aleatória e, por isso, com virtualmente única em cada linfócito formado. O primer paciente-específico (em vermelho) é desenhado de forma a anelar sobre a região dos nucleotídeos N/P. A qPCR é feito com primer paciente-específico forward em combinação com primer reverso consenso e sonda TaqMan que se anelam no segmento J.

(18)

do seu uso. Muito desse consumo de tempo e recursos está ligado à necessidade da confecção e teste de primers específicos e individuais para o clonotipo leucêmico de cada paciente (van Dongen et al., 2016). Em adição, na maior parte dos casos existe a necessidade da utilização de pelo menos dois marcadores moleculares na análise da DRM, com o intuito de evitar a obtenção de resultados falso-negativos como consequência de oligoclonalidade gerada por evoluções subclonais (Beishuizen et al., 1994). Cada marcador acompanhado por qPCR exige a confecção de um primer paciente-específico próprio para a sua sequência V(D)J.

Em função dessa conjuntura de altos custos e elevado grau de expertise necessário, a análise de casos pediátricos de LLA por DRM no Brasil ocorre de forma rotineira apenas no Centro Infantil Boldrini e no GRAAC (Unifesp). Desse modo, atualmente apenas cerca de 100 crianças por ano (3,2% do total de casos no país) se beneficiam da apreciação desse importante fator prognóstico em seus tratamentos.

(19)

5. DRM por Next Generation Sequencing (NGS)

Esse conjunto de limitações das técnicas atuais, portanto, expõe a necessidade do desenvolvimento de um método para análise de DRM mais sensível, específico, automatizável e, principalmente, mais barato. Nesse contexto, o sequenciamento de nova geração, também denominado Next Generation Sequencing (NGS), surge como um proeminente candidato (Wu et al., 2012; Nunes et al., 2017). Nesse projeto, buscou-se a padronização da utilização do sequenciador Illumina MiSeq para realizar análises de DRM em casos de LLA-B derivada, utilizando como gene alvo o rearranjo V(D)J em IgH.

Esse trabalho fez parte do projeto PRONON denominado “Sequenciamento de alto desempenho para quantificação da Doença Residual Mínima em Leucemia Linfoide Aguda”, de número 25000.057709/2015-01 no SIPAR, cujo Termo de Concessão encontra-se publicado no Diário Oficial da União de 10 de dezembro de 2015.

5.1. Obtenção da Frequência do Clonotipo Leucêmico em DNA Linfocítico Total

A análise da DRM por NGS é feita com uso de amostras pareadas coletadas no ato do diagnóstico da LLA (amostra diagnóstico) e no 35º dia da terapia de indução (amostra seguimento). Essas amostras são coletadas da medula óssea dos pacientes, tendo as suas células mononucleadas isoladas e seu DNA genômico extraído. As amostras diagnóstico (denominadas D0) possuem altos índices de linfoblastos leucêmicos, permitindo a identificação das sequências de nucleotídeos referentes a esses clonotipos para o paciente testado. As amostras seguimento (denominadas D35) são utilizadas para o cálculo em si da NGS DRM do paciente nesse time point. Amostras D35 e D0 são sequenciadas em corridas separadas, para evitar contaminação cruzada entre esses grupos.

A obtenção de NGS DRM também se fundamenta na amplificação da “cicatriz” V(D)J do gene IgH, assim como na qPCR DRM. No entanto, o preparo das amostras

(20)

para sequenciamento se baseia em uma multiplex nested PCR, ao invés de uma PCR singleplex. Nesse sistema, a primeira etapa de PCR faz uso de um conjunto de primers consenso capazes de se anelar a uma vasta gama de rearranjos de IgH, realizando a amplificação da sequência V(D)J em si. Já a segunda etapa adiciona os adaptadores para o sequenciamento aos amplicons gerados na primeira PCR (Faham et al., 2012). Esse processo encontra-se ilustrado na Figura 3.

Na primeira, denominada Amplicon PCR, utiliza-se 50 ng de gDNA para a análise de amostras D0, quantidade suficiente para a identificação dos seus clonotipos leucêmicos. Já para analisar amostras D35, são utilizadas 600 ng de gDNA. Desse modo, levando em conta que uma célula diploide humana contém cerca de 6 pg de DNA, a análise da DRM utiliza o material genético de cerca de 100.000 células mononucleadas por amostra. A sensibilidade máxima teórica da técnica de NGS DRM é, portanto, de uma célula leucêmica em 100.000 células mononucleadas (10-5).

O multiplex de primers utilizado nessa etapa é o FR2 Biomed2, que consiste em um conjunto de forward primers que têm como alvo o segundo framework de diferentes segmentos VH em par a um reverse primer consenso para anelamento em JH (van Dongen et al., 2003). Cada oligonucleotídeo forward desse conjunto utilizado

Figura 3. Esquema do Nested Multiplex PCR de rearranjos IgH. Primeira etapa de PCR utiliza um conjunto de primers em multiplex para segmentos V(D)J. A segunda PCR adiciona os adaptadores para o sequenciamento do amplicon.

(21)

é específico para uma família de segmento VH, totalizando assim 7 primers. O reverse primer consenso é capaz de reconhecer todas as famílias JH. Todos esses alvos desses oligonucleotídeos se encontram no gene IgH. Foram adicionadas a esses primers caudas 5’ não-complementares a rearranjos V(D)J, que funcionam como alvo para o anelamento dos primers da segunda etapa de PCR.

Na segunda etapa, denominada Index PCR, os primers utilizados provém do kit Nextera XT, fornecidos pela Illumina. Esse par de oligonucleotídeos consiste nos adaptadores necessários à etapa posterior de sequenciamento no MiSeq, denominados P5 e P7, além de conter duas sequências indexadoras de 8 nucleotídeos (um em cada primer do par). Esses index possibilitam gerar uma combinação de sequências identificadoras de amostras única para cada paciente analisado. Desse modo, é possível realizar a análise de amostras de diversos pacientes em apenas uma corrida do sequenciado.

Reações de PCR multiplex, como a etapa de Amplicon PCR, podem apresentar um viés de amplificação diferencial, amplificando certas sequências de DNA com eficiência maior do que outras. Esse efeito pode ser gerado pela maior facilidade de amplificação de fragmentos de DNA menores ou por diferentes porcentagens de GC dos amplicons (Elnifro et al., 2000). O número de ciclos das duas reações de PCR realizadas é um fator importante no controle desse viés de amplificação diferencial, uma vez que menores números de ciclos na primeira etapa, na qual a reação multiplex é de fato realizada, privilegiariam a restrição desse viés (D’Amore et al., 2016). Assim sendo, o número de ciclos da primeira PCR foi um parâmetro testado, buscando minimizar o seu viés de amplificação sem comprometer a sensibilidade e linearidade do teste.

Após a realização das duas etapas de PCR, o material genético obtido (denominado biblioteca) é purificado utilizando beads magnéticas, capazes de separar fragmentos de DNA com base em seu tamanho. A plataforma MiSeq tem maior facilidade em sequenciar amplicons quanto menores os seus tamanhos. Considerando que primer-dimers possuem adaptadores para sequenciamento e são menores que os amplicons alvo do método de NGS DRM, sua remoção é imperativa.

As bibliotecas preparadas são então quantificadas, diluídas para a concentração de sequenciamento e, em casos em que amostras de mais de um paciente forem ser analisadas em um mesmo sequenciamento, multiplexadas. Os

(22)

sistemas de sequenciamento Illumina possuem dificuldade em sequenciar bibliotecas de baixa diversidade, como é o caso do um sequenciamento contendo apenas amplicons do gene IgH (Mitra et al., 2015). Desse modo, é realizada a adição de genomas PhiX (Illumina) à biblioteca, o que eleva a sua diversidade de amplicons, permitindo um sequenciamento mais robusto. Buscando reduzir a concentração PhiX adicionada e assim diminuir o volume de dados desperdiçado no sequenciamento, foi testado o uso concomitante de quatro variedades do primer reverso JH (utilizado na primeira etapa do nested PCR), com cada uma delas contendo entre 0 a 3 nucleotídeos N entre a sequência JH e a cauda 5’ não-complementar. Desse modo, uma vez que o sequenciamento tem início a partir dessa extremidade do amplicon, o uso dessas 4 variedades de primers reverso permite elevar a diversidade de nucleotídeos sequenciados a cada ciclo do processo de sequencing by synthesis.

Após a adição de PhiX, as bibliotecas passam então por duas etapas de desnaturação: química (NaOH) e por calor. Esse processo objetiva converter suas moléculas de DNA em fita simples, permitindo que elas se hibridizem à flow cell, plataforma onde o sequenciamento em si é realizado.

Nessa plataforma, os amplicons de IgH são distribuídos de maneira randômica em sua superfície sólida, onde também são adicionados primers, DNA polimerase e nucleotídeos marcados com fluorescência, contidos no kit de sequenciamento provido pela Illumina. Cada amplicon é hibridizado à flow cell pela sua extremidade VH (adaptador P7) e forma então um cluster de moléculas idênticas entre si através de uma amplificação denominada bridge PCR. O sequenciamento de cada cluster se inicia pela extremidade JH do amplicon (adaptador P5) e se dá por um método de terminação cíclica reversível de quatro cores, denominado sequencing by synthesis. Nesse sistema, cada ciclo de sequenciamento determina a identidade de um nucleotídeo para cada cluster (Figura 4). Para NGS DRM, utilizam-se 150 ciclos de sequenciamento. Resumidamente, o sequenciamento é realizado em três etapas (1) utilização do primer para sequenciamento a partir de JH, obtendo a sequência JH-N(D)N-VH (2) lavagem da fita formada e adição do primer para sequenciamento de um dos indexadores de 8 nucleotídeos e (3) lavagem da fita formada e adição do primer para sequenciamento do outro indexador de 8 nucleotídeos.

(23)

Em seguida, o software Real Time Analyzer do MiSeq demultiplexa dados de diferentes amostras com base em sua combinação de indexes e monta, através do cálculo da intensidade de fluorescência e posicionamento dos clusters, as sequências para os amplicons sequenciados, denominadas reads. Uma vez que o sequenciamento para NGS DRM dura 150 ciclos, os reads gerados têm até 150 bases de comprimento. Pelo menos 10.000 reads são gerados por amostra D0 e 500.000 reads por amostra D35. Assim, a profundidade mínima de cobertura para amostras D0 é de 1 vez e para amostras D35 é de 5 vezes

Cada read corresponde à sequência de um cluster, que por sua vez corresponde a um amplicon hibridizado à flow cell. (Metzker, 2010; Liu et al., 2012).

Figura 4. Esquema do processo de Next Generation Sequencing na plataforma Illumina MiSeq. (A) Amplicons ligados à flow cell são amplificados por bridge PCR. Sequencias de adaptador P7 representada em azul e P5 em roxo. (B) Clusters gerados pela bridge PCR são sequenciados pelo processo de sequencing by

synthesis. Durante cada ciclo de sequenciamento, um nucleotídeo marcado com

fluorescência é incorporado ao amplicon, emitindo um sinal de fluorescência correspondente à base utilizada. Um bloqueador 5’ removível (representado em cinza), impede a incorporação de outros nucleotídeos no mesmo ciclo de sequenciamento. Fonte: Westbury, 2018.

(24)

Esses reads, por tanto, representam a heterogeneidade da população celular analisada. Desse modo, é possível identificar a sequência de nucleotídeos associada a um clonotipo leucêmico na amostra D0 de um paciente e, através dessa sequência, observar a abundância desse mesmo clonotipo em sua amostra D35. Essa análise permite, portanto, determinar a frequência do clonotipo leucêmico em relação ao DNA linfocítico total presente inicialmente na amostra D35 analisada (daqui para frente referida como frequência do clonotipo leucêmico), como demonstrado por Kotrova et al. (2015).

5.2. Normalização da Frequência do Clonotipo Leucêmico em DRM

Os primers consenso usados para o sequenciamento de nova geração são específicos para rearranjos V(D)J de IgH e, portanto, retornam apenas reads correspondentes a linfoblastos e linfócitos, sejam eles neoplásicos ou saudáveis. No entanto, a composição linfocitária da medula óssea é de apenas 18,3%, com o restante da população celular sendo composta por 4,7% monócitos, 69,4% granulócitos e 6,5% leucócitos imaturos (Brooimans, 2009). Desse modo, o uso desses primers não traz como resultado a porcentagem de células cancerosas em relação a todas as células mononucleadas da medula (linfócitos e monócitos), mas apenas em relação à população total linfocítica. Assim sendo, este projeto propôs testar a massa de gDNA utilizada no preparo da biblioteca para sequenciamento como ponto de referência para o número total de células mononucleadas presentes na amostra analisada.

Com o intuito de normalizar o número de reads associados a um clonotipo leucêmico, experimentou-se o uso de um controle externo (spike-in control). Esse normalizador consiste em 21 fragmentos de DNA correspondentes a rearranjos V(D)J de IgH com sequência conhecida, clonados em plasmídeos. Os controles spike-in são adicionados em quantidades fixas e diferentes entre si à amostra D35 antes da nested PCR. Desse modo, eles passam pelas mesmas condições de amplificação e sequenciamento que o restante do gDNA da amostra na qual se encontram presentes. Assim sendo, a associação do seu número de cópias inicialmente utilizado ao seu número de reads gerado, permite a determinação do número de cópias inicial da

(25)

molécula de gDNA associada ao clonotipo leucêmico. Esse parâmetro, em conjunto ao número total de células mononucleadas, obtido conforme descrito no parágrafo anterior, permite a determinação da DRM da amostra D35 a partir da frequência do seu clonotipo leucêmico (Figura 5). Esse princípio já foi demonstrado por outros estudos, como por Faham et al. (2012), Gawad et al. (2012) e Ladetto et al. (2014) utilizando o método comercial fechado LymphoSIGHT (Sequenta).

(26)

Figura 5. Esquema do método de determinação da DRM utilizando o Spike-in Control. O gDNA das células da medula a ser analisado é extraído e quantificado (Ntot). São adicionados, em quantidades determinadas e diferentes entre si, 21 fragmentos de IgH clonados em plasmídeos (spike-in control), denominadas Nr (no exemplo representados apenas três fragmentos). As bibliotecas são preparadas através de dois processos de PCR, sendo então enviadas para sequenciamento. Três tipos de reads são gerados: células saudáveis com rearranjo V(D)J, linfoblastos leucêmicos (Sl) e controle

spike-in (Sr). Esses parâmetros são utilizados para determinar o fator Spike-in e a DRM,

(27)

5.3. Vantagens da NGS DRM

A análise de DRM utilizando essa tecnologia de sequenciamento possui o potencial de superar limitações das técnicas atualmente utilizadas. Esse sistema evade, por exemplo, a necessidade do uso de primers paciente-específicos, uma vez que o clonotipo leucêmico poderá ser identificado em meio aos demais reads sequenciados através da sua sequência de nucleotídeos, determinada a partir da amostra D0. A identificação dessa sequência nessa amostra diagnóstico é simples, uma vez que ela se encontra tomada por linfoblastos leucêmicos. Desse modo, o clonotipo associado a essas células leucêmicas encontra-se extremamente super-representado nos reads gerados a partir do seu sequenciamento. Esse fator torna a técnica de NGS DRM mais rápida e menos trabalhosa quando comparada a qPCR DRM, como apresentado na Tabela 1.

Em relação aos seus custos, a adição de tags indexadores aos primers utilizados torna possível realizar o exame para diversos pacientes (até 20) em uma única corrida, reduzindo assim o preço por paciente do método. Em adição, o NGS possibilita acompanhar sem esforços adicionais a população de subclones leucêmicos gerados por rearranjos secundários, evitando assim resultados falso-negativos decorrentes de possível proliferação desses subclones (Gawad et al., 2012). Por fim, após a sua padronização, o estudo da DRM através desse método pode ser adaptado para ser utilizado em casos de LLA-T (como por exemplo através do sequenciamento de rearranjos do TCRB e TCRG), além de em outras variantes de leucemia para as quais a DRM também possa ser relevante, como em alguns casos de leucemia mieloide aguda (Rubnitz et al., 2010).

(28)

Tabela 1. Comparação entre análise de DRM por qPCR e NGS no MiSeq. Para o

período de tempo descrito, é possível analisar dois pacientes por qPCR e vinte pacientes por NGS.

Atividade qPCR DRM NGS DRM

Dia Funcionário Dia Funcionário

Separação de células MNC da amostra D0

1 A 1 A

Extração e quantificação de DNA do D0

1 B 1 B

Extração de DNA de controles (para curvas de diluição)

2 PCR rearranjos V(D)J de Ig 3 B Homo/heteroduplex e reamplificação 3 e 4 Sequenciar rearranjos V(D)J clonais 5 a 12 C

Analisar sequências e desenhar primers paciente-específicos

13 e 14 C

Síntese de primers (serviço de terceiros)

15 a 19 -

Teste de sensibilidade dos primers

20 e 21 C, D

Separação de MNC da amostra D35

22 A, D 2 A

Extração e quantificação de DNA do D35

22 2 B

qPCR (controle e Ig) da amostra D35

23 D

PCR rearranjos VDJ de Ig de D0 e D35

3 e 4 B, C

Quantificação do DNA dos produtos de PCR (amplicon)

5 B, C

Combinar amplicon e carregar no reagent cartridge juntamente com a flow cell e rodar

sequenciamento

5 B, C

Análise dos resultados 23 6 C

(29)

II. OBJETIVOS

Padronizar e validar método de análise de Doença Residual Mínima em Leucemia Linfoide Aguda B-derivada pediátrica por sequenciamento massivo de rearranjos de IgH.

Objetivos Específicos

1. Realizar testes de sensibilidade e linearidade de quantificação de rearranjos IgH por sequenciamento de última geração.

a. Desenhar e testar primers com adaptadores Illumina, próprios para o PCR e sequenciamento dos rearranjos IgH.

b. Testar e padronizar a DNA polimerase utilizada no preparo das bibliotecas para sequenciamento.

c. Testar influência da variação do número de ciclos de PCR no preparo de bibliotecas para sequenciamento.

d. Testar os efeitos da redução da concentração de genomas PhiX adicionados às bibliotecas.

e. Testar vantagens da normalização do número de reads de clonotipos leucêmicos através da quantificação da massa de gDNA utilizado no preparo da biblioteca em conjunto a controles externos (spike-in control).

2. Fazer análise de DRM por sequenciamento NGS em 50 casos retrospectivos de LLA-B derivada já analisada por qPCR.

3. Comparar resultados de DRM por NGS e qPCR.

(30)

III. MÉTODOS

Essa seção descreve o método final de NGS DRM, utilizado em sua validação, bem como as amostras utilizadas nesta etapa. Detalhes específicos dos experimentos anteriores para a padronização desse método estão discriminados em detalhe em suas seções de resultados. Um resumo esquemático do método descrito a seguir encontra-se na Figura 6.

(31)
(32)

1. Clonagem das Sequências Spike-In Control

As sequências de rearranjos V(D)J IgH clonadas para ser utilizadas como spike-in control, suas respectivas famílias VH e nomenclaturas estão descritas na

Tabela 1S, presente nos anexos.

Vinte e uma amostras de gDNA contendo rearranjos IgH foram selecionadas para uso como spike-in control. Elas foram quantificadas utilizando o ensaio HS dsDNA do fluorímetro Qubit (Life Technologies). Suas sequências V(D)J foram amplificadas para a clonagem conforme o protocolo descrito na Tabela 2. Os produtos de PCR foram clonados conforme o protocolo para sticky end amplicons do sistema pJET1.2/blunt Cloning Vector (ThermoFisher Scientific). Uma linhagem de E. coli DH5-Alfa competente foi utilizada para a clonagem.

Tabela 2. Protocolo de preparo e condições de PCR para amplificação de sequências

V(D)J para clonagem.

A extração e purificação dos plasmídeos foi realizada segundo o protocolo do kit NucleoSpin Plasmid (No Lid) (MN). A confirmação da clonagem foi realizada por digestão (Tabela 3) e PCR (Tabela 4).

(33)

Tabela 3. Protocolo de preparo e condições de digestão para confirmação de

clonagem.

(34)

2. Preparo do Pool de Spike-In Control

Os plasmídeos utilizados como spike-in control foram linearizados conforme a

Tabela 5. Os plasmídeos linearizados foram quantificados utilizando o ensaio HS

dsDNA do fluorímetro Qubit (Life Technologies). Um pool contendo todas as 21 sequências spike-in control foi preparado. A nomenclatura dos spike-in control, suas famílias VH e seus números de cópias por microlitro de pool estão ilustrados na Figura

7.

Tabela 5. Protocolo de preparo e condições de linearização dos plasmídeos spike-in

control.

Figura 7. Composição do pool de spike-in control. Nomenclatura, em negrito, família VH e número de cópias por microlitro de cada sequência spike-in control no pool.

(35)

3. Seleção das Amostras para Determinação de NGS DRM

Este estudo inclui amostras de medula óssea de 45 pacientes com Leucemia Linfoide Aguda B-derivada, analisadas no Centro Infantil Boldrini, Campinas. Para realizar a análise de NGS DRM de cada paciente, utilizou-se amostras pareadas D0 e D35, totalizando então 90 amostras utilizadas. Amostras seguimento colhidas entre os dias 36 a 56 foram utilizadas substituindo a amostra D35 quando necessário, devido a recoletas na ocasião original da determinação da DRM do paciente por qPCR. Quarenta e um pacientes e seus responsáveis atestaram participação voluntária no protocolo GBTLI LLA-2009, que inclui estudo da DRM, através de um Termo de Consentimento Livre e Esclarecido (em anexo). Os 4 pacientes restantes e seus responsáveis atestaram participação voluntária no protocolo AIEOP-2009, que inclui um Termo de Consentimento Livre e Esclarecido acerca do armazenamento do material biológico colhido e o seu eventual uso em projetos de pesquisa (em anexo). O projeto foi aprovado pelo CEP Boldrini com o número CAAE 57280616.4.0000.5376 (em anexo).

As amostras de pacientes diagnosticados com LLA B-derivada foram escolhidas de forma consecutiva a partir de um dos primeiros pacientes que a ter sua DRM analisada por qPCR pelo Laboratório de Biologia Molecular do Centro Infantil Boldrini (paciente com número de laboratório 1665). Foram excluídos dessa seleção pacientes (1) que foram diagnosticados com outra neoplasia que não a LLA B-derivada (2) que não tiveram uma DRM de amostra D35 (ou recoleta dessa) analisada originalmente por qPCR de um clonotipo IgH; (3) cuja amostra D35 não possuísse DNA em quantidade suficiente para a realização do método de NGS DRM (600 ng) (4) cuja amostra D0 não possuísse DNA em quantidade suficiente para a realização do método de NGS DRM (50 ng).

(36)

4. Isolamento das células mononucleadas

As amostras provenientes da medula óssea dos pacientes, que foram colhidas em EDTA, são diluídas em solução salina, na proporção de 1:1, e em seguida centrifugadas em um gradiente de Ficoll Hypaque Plus (GE Healthcare). As células mononucleares obtidas através desse processo foram então aliquotadas em solução de isotiocianato de guanidina 4M e tiveram o seu DNA extraído, seguindo o protocolo do illustra blood genomicPrep Mini Spin Kit (GE Healthcare), para a utilização no estudo de qPCR DRM. Esse mesmo DNA foi utilizado para a análise de NGS DRM.

(37)

5. Quantificação da DRM por NGS

As 90 amostras pareadas foram preparadas e sequenciadas em sets de até 20 amostras, sempre separando D0 e D35. As amostras foram quantificadas utilizando o ensaio HS dsDNA no fluorímetro Qubit (Life Technologies). Vinte amostras selecionadas foram amplificadas para sequenciamento conforme a Tabela 6. Para a Amplicon PCR, 50 ng de gDNA foram utilizados como template em amostras D0, enquanto 600 ng de gDNA foram utilizados para amostras D35. O pool de moléculas spike-in control é adicionado apenas no preparo de amostras D35. Os oligonucleotídeos utilizados nessa primeira etapa de PCR estão descritos na Tabela

7.

Tabela 6. Protocolo de preparo de bibliotecas e condições das duas etapas de PCR

(38)

Tabela 7. Oligonucleotídeos Biomed2 FR2 acrescidos de caudas 5’ não

complementares, utilizados no preparo das bibliotecas para NGS DRM. Caudas 5’ não-complementares destacadas em verde e em vermelho. Nucleotídeos N inseridos para elevação artificial da diversidade de amplicons sequenciados destacados em azul.

VH-FR2

Primer Sequência 5’→ 3’ VH1-FR2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGCTGGGTGCGACAGGCCCCTGGACAA VH2-FR2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGTGGATCCGTCAGCCCCCAGGGAAGG VH3-FR2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGGTCCGCCAGGCTCCAGGGAA VH4-FR2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGTGGATCCGCCAGCCCCCAGGGAAGG VH5-FR2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGGGTGCGCCAGATGCCCGGGAAAGG VH6-FR2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGTGGATCAGGCAGTCCCCATCGAGAG VH7-FR2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGTTGGGTGCGACAGGCCCCTGGACAA

JH

Primer Sequência 5’→ 3’

JH-cons R 0N TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCTTACCTGAGGAGACGGTGACC

JH-cons R 1N TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGNCTTACCTGAGGAGACGGTGACC

JH-cons R 2N TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGNNCTTACCTGAGGAGACGGTGACC

JH-cons R 3N TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGNNNCTTACCTGAGGAGACGGTGACC

As bibliotecas foram purificadas com Agencourt Ampure XP Beads (Beckman Coulter) conforme a seção PCR Clean-Up 2 do protocolo 16S metagenomic library preparation (Illumina), utilizando uma proporção de volume beads magnéticas para volume de biblioteca de 0,7. As bibliotecas foram eluídas em 25 µL de Tris 10 mM pH 8.5.

O aferimento do tamanho dos amplicons alvo em pares de base foi realizado por eletroforese em gel de agarose 2%. As bibliotecas foram quantificadas utilizando o ensaio HS dsDNA no fluorímetro Qubit (Life Technologies). A concentração molar das bibliotecas, em nM, foi determinada através da seguinte fórmula:

concentração em nM = 1000000 x (concentração em ng/µL) (660 g/mol x tamanho da biblioteca)

(39)

As bibliotecas foram diluídas a 4 nM em HT1 Hybridization Buffer (Illumina) e multiplexadas. Em seguida, 5 µL desse pool de bibliotecas é adicionado a 5 µL de 0.2 N NaOH por 5 minutos para desnaturação. O pool desnaturado foi diluído a 8 pM em HT1. Adicionou-se 60 µL de PhiX control v3 (Illumina) 8 pM desnaturado a 540 µL do pool desnaturado de bibliotecas. O pool resultante foi aquecido em banho seco a 96 °C por 2 minutos e em seguida resfriado em gelo por 5 minutos. Os 600 µL desse pool foram adicionados ao Reagent Cartridge (Illumina) para sequenciamento. O sequenciamento de amostras D0 foi realizado utilizando o MiSeq Reagent Nano Kit v2 (300-cycles). Amostras D35 foram sequenciadas utilizando o MiSeq Reagente Kit v3 (150-cycles). Ambos tipos de amostras foram sequenciados por 150 ciclos single-read.

(40)

IV. FORMA DE ANÁLISE DOS RESULTADOS

Os reads gerados pelo software Real Time Analyzer, do sequenciador MiSeq, são armazenados em arquivos fastq. Um arquivo desse tipo é gerado para cada amostra sequenciada. Esses reads possuem cerca de 150 pares de base, gerados por 150 ciclos de sequenciamento single-read (apenas uma das extremidades da biblioteca é sequenciada). Essa modalidade de sequenciamento foi utilizada tanto em função do seu menor custo e tempo de execução, como por ter sido capaz de gerar reads de alta qualidade com comprimento suficiente para identificar a cicatriz V(D)J da grande maioria dos clonotipos analisados. A análise da qualidade dos dados gerados foi realizada nos softwares FastQC e MultiQC.

A análise da frequência dos clonotipos presentes em cada amostra foi feita utilizando a web application do software Vidjil (http://www.vidjil.org). Esse software foi escolhido por ter sido capaz de identificar e classificar corretamente a maior parte dos clonotipos leucêmicos IgH analisados, além de ser o único desse tipo a fornecer uma versão com interface gráfica (GUI), reduzindo o grau de conhecimento e familiaridade com linhas de comando necessário para um analista clínico determinar a NGS DRM.

Essa plataforma permite agrupar reads de clonotipos V(D)J IgH baseado na semelhança das suas sequências, determinando suas frequências frente ao restante da população de clonotipos (Duez et al., 2016). A partir dessa comparação, é possível observar quais rearranjos IgH correspondem a linfoblastos B malignos, bem como a suas presenças percentuais na composição da amostra. Em concordância com outros trabalhos desenvolvidos na área, foi estipulado que um clonotipo IgH presente em pelo menos 5% da amostra D0 corresponde a um rearranjo leucêmico (Faham et al., 2012; Gawad et al., 2012; Ladetto et al., 2014; Pulsipher et al., 2015). Clonotipos com alto grau de semelhança a uma sequência leucêmica foram agrupados a essa (somando os números de reads) se as três condições a seguir fossem verdadeiras concomitantemente: (a) esse clonotipo estava entre os 100 mais frequentes de sua amostra (b) a diferença para o clonotipo leucêmico foi de até três nucleotídeos nos segmentos VH, DH ou JH (c) a diferença para o clonotipo leucêmico foi de no máximo um nucleotídeo na região de inserções aleatórias N. Através da identificação das

(41)

sequências leucêmicas a partir da amostra D0, é possível analisar também a frequência desses clonotipos neoplásicos na amostra D35 do mesmo paciente.

O número de reads gerado por cada molécula spike-in control sequenciada foi identificado através da sequência V(D)J conhecida associada àquela molécula. Os dados desses controles foram então utilizados para normalizar os reads de clonotipos leucêmicos em valores de NGS DRM, conforme previamente ilustrado na Figura 5. Enfim, os resultados finais obtidos puderam ser comparados aos estudos retrospectivos por qPCR da mesma amostra.

A análise estatística dos resultados finais de validação do método de NGS DRM foi realizada utilizando um nível de significância correspondente a p < 0.05. A comparação entre os dados de qPCR DRM e NGS DRM foi realizada de forma pareada pelo coeficiente de correlação de Pearson no programa Google Sheets.

(42)

V. RESULTADOS

1. Padronização da Amplicon PCR

O processo de padronização do preparo e condições de reação de Amplicon PCR, que resultou no método anteriormente ilustrado na Tabela 6, encontra-se descrito a seguir. Uma vez que apenas a Amplicon PCR foi realizada nessa etapa de padronização, utilizou-se de 25 a 35 ciclos de reação, possibilitando a avaliação de seus resultados por eletroforese em gel 2%.

1.1. Teste de Enzimas: Phusion vs Tth

As enzimas Phusion High-Fidelity DNA Polymerase (New England Biolabs) e Tth DNA Polymerase (Sigma Aldrich) foram testadas e comparadas. Como template, utilizou-se três pontos de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável (Peripheral Blood Mononucleated Cells), nas proporções 5 x 10-5, 5 x 10-4 e 10-3. Também foi utilizada uma amostra de PBMC pura e uma amostra D0 da mesma leucemia usada para preparar a diluição seriada. Foram utilizados 50 ng de gDNA para cada amostra amplificada. O resultado obtido por eletroforese em gel de agarose 2% está representado na Figura 8.

(43)

Foram observadas bandas com tamanhos correspondentes aos amplicons de rearranjos V(D)J de IgH utilizando as duas enzimas testadas. No entanto, ambas as condições também apresentaram alto índice de formação de primer-dimer e baixa uniformidade entre as bandas observadas.

Figura 8. Comparação das enzimas Phusion High Fidelity DNA Polymerase e Tth DNA Polymerase. Bandas esperadas de rearranjos V(D)J de IgH destacadas em vermelho (cerca de 300 pares de base). Controle negativo representado por NC. Bandas de cerca de 120 pares de base correspondem a primer-dimer. Bandas de cerca de 60 pares de bases correspondem a resto de primer. Ladder 1 Kb plus (ThermoFisher Scientific).

(44)

1.2. Touchdown PCR

Buscando elevar a especificidade da reação para reduzir a formação de primer-dimer previamente observada, testou-se a elevação da temperatura de anelamento utilizada em 2 °C, juntamente ao uso de uma touchdown PCR durante os 5 primeiros ciclos da reação. Como template, utilizou-se três pontos de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável, nas proporções 5 x 10-5, 5 x 10-4 e 10-3. Também foi utilizada uma amostra de PBMC pura e uma amostra D0 da mesma leucemia usada para preparar a diluição seriada. Foram utilizados 600 ng de gDNA para cada amostra amplificada, excetuando D0, para qual utilizou-se 50 ng de gDNA. O resultado obtido por eletroforese em gel de agarose 2% está representado na Figura 9.

(45)

Apenas o uso de touchdown PCR foi pouco efetivo na redução da formação de primer-dimers. A PCR utilizando a enzima Phusion High-Fidelity DNA Polymerase continuou por apresentar baixa uniformidade entre as bandas observadas. A PCR utilizando a enzima Tth DNA Polymerase apresentou a formação de amplicons não identificados de cerca de 150 pares de base.

Figura 9. Efeito do uso de Touchdown PCR na comparação entre as enzimas Phusion High Fidelity DNA Polymerase e Tth DNA Polymerase. Bandas esperadas de rearranjos V(D)J de IgH destacadas em vermelho (cerca de 300 pares de base). Controle negativo representado por NC. Bandas de cerca de 120 pares de base correspondem a primer-dimer. Bandas de cerca de 60 pares de bases correspondem a resto de primer. Ladder 1 Kb plus (ThermoFisher Scientific).

(46)

1.3. Redução da Concentração de Primers

A concentração do pool de oligonucleotídeos no volume final da PCR foi reduzida de 200 nM para 100 nM para tentar, em conjunto a touchdown PCR previamente descrita, reduzir a formação de primer-dimer. Como template, utilizou-se três pontos de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável, nas proporções 5 x 10-5, 5 x 10-4 e 10-3. Também foi utilizada uma amostra de PBMC pura e uma amostra D0 da mesma leucemia usada para preparar a diluição seriada. Foram utilizados 600 ng de gDNA para cada amostra amplificada, excetuando D0, para qual utilizou-se 50 ng de gDNA. O resultado obtido por eletroforese em gel de agarose 2% está representado na Figura 10.

(47)

A redução da concentração de primers na Amplicon PCR com Phusion High-Fidelity DNA Polymerase diminuiu fortemente a formação de primer-dimer. Observou-se também a formação de amplicons não identificados com cerca de 550 pares de base. Esse DNA, no entanto, não compromete a determinação da NGS DRM, uma vez que o seu tamanho é consideravelmente maior que o do amplicon alvo da técnica. Desse modo, as sequências de rearranjos V(D)J IgH se ligam a flow cell em taxas muito maiores que esse amplicon maior. O mesmo efeito positivo não foi observado

Figura 10. Efeito da redução da concentração de primers na comparação entre as enzimas Phusion High Fidelity DNA Polymerase e Tth DNA Polymerase. Bandas esperadas de rearranjos V(D)J de IgH destacadas em vermelho (cerca de 300 pares de base). Controle negativo representado por NC. Bandas de cerca de 120 pares de base correspondem a primer-dimer. Bandas de cerca de 60 pares de bases correspondem a resto de primer. Ladder 1 Kb plus (ThermoFisher Scientific).

(48)

na Amplicon PCR com Tth DNA Polymerase, na qual a formação de primer-dimer ainda foi bastante pronunciada.

1.4. Teste da Enzima GoTaq G2 Hot Start DNA Polymerase

Considerando a natureza do método de NGS DRM, de possível integração à rotina clínica de centros de diagnóstico de biologia molecular, buscamos substituir a enzima Phusion High-Fidelity DNA Polymerase pela GoTaq G2 Hot Start DNA Polymerase (Promega), uma alternativa cerca de cinco vezes mais barata e com maior disponibilidade a pronta entrega. A Amplicon PCR com essa enzima foi testada mantendo os parâmetros anteriormente determinados (redução de concentração de primers e uso de touchdown PCR).

Como template, utilizou-se um ponto de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável, na proporção 10-2. Foram utilizados 600 ng de gDNA. O resultado obtido por eletroforese em gel de agarose 2% está representado na Figura 11.

(49)

O amplicon de rearranjo V(D)J de IgH foi observado através de uma banda nítida correspondente a cerca de 300 pares de base, enquanto a taxa de formação de primer-dimer foi baixa, representada através de uma banda quase inexistente correspondente a cerca de 120 pares de base. Por fim, a banda não identificada de cerca de 550 pares de base continua presente, mas em níveis menores que os observados utilizando as enzimas Phusion High-Fidelity DNA Polymerase e Tth DNA Polymerase. Desse modo, padronizou-se o preparo de bibliotecas para DRM NGS com a enzima GoTaq G2 Hot Start DNA Polymerase.

Figura 11. Teste da Amplicon PCR utilizando a enzima GoTaq G2 Hot Start DNA Polymerase. Banda esperada de rearranjos V(D)J de IgH destacada em vermelho (cerca de 300 pares de base). Controle negativo representado por NC. Ladder 1 Kb plus (ThermoFisher Scientific).

(50)

2. Número de Ciclos de PCR

Esse ensaio foi realizado utilizando a enzima Phusion High-Fidelity DNA Polymerase, uma vez que ela ainda não havia sido substituída pela GoTaq G2 Hot Start DNA Polymerase.

Os valores 17, 20, 23 e 25 foram testados como o número de ciclos a ser utilizado na primeira PCR do preparo das bibliotecas para sequenciamento, com o intuito de reduzir um possível viés de amplificação ocasionado pela reação multiplex. A segunda PCR foi realizada de modo a completar 40 ciclos totais para as duas reações. O ensaio utilizou como template, para cada condição testada, dois pontos de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável nas proporções 10-4, 10-3, além de uma amostra D0 da mesma leucemia usada para preparar a diluição seriada. Foram utilizados 600 ng de gDNA para cada amostra amplificada, excetuando D0, para qual se utilizou 50 ng de gDNA. A qualidade dos dados gerados pelo sequenciamento foi analisada utilizando os softwares FastQC e MultiQC (Figura 12) enquanto a análise dos dados em si utilizou o software Vidjil (Figura 13). Phre d Sc ore Position (bp)

Figura 12. Controle de qualidade no software MultiQC do sequenciamento do ensaio para análise do número de ciclos de PCR. Cada linha representa o Phred score médio por base dos reads de uma das amostras sequenciadas. Scores acima de 30 (Q30), representados na porção verde do gráfico, são considerados como apresentando boa qualidade.

(51)

As porcentagens equivalentes à frequência do clonotipo leucêmico de cada amostra sequenciada estão representadas nas Tabela 8 abaixo.

Tabela 8. Resumo da frequência do clonotipo leucêmico por amostra. A amostra D0

amplificada na primeira PCR por 17 ciclos apresentou problemas no seu preparo de biblioteca, impedindo o prosseguimento da sua análise.

Número de Ciclos / Curva-Padrão 10-4 10-3 D0 17 0.036% 0.176% - 20 0.078% 0.230% 86.20% 23 0.012% 0.265% 83.13% 25 0.024% 0.217% 74.63%

Através da análise dos dados gerados, determinou-se 25 ciclos de reação na primeira etapa do preparo das bibliotecas para sequenciamento como o valor ideal, uma vez que a diferença esperada de dez vezes da frequência do clonotipo leucêmico entre os pontos 10-4 e 10-3 da diluição foi observada apenas nas amostras preparadas dessa maneira. No mais, através da análise do controle de qualidade dos dados gerados, é possível observar que amostras preparadas com números maiores de ciclos de PCR tendem a apresentar maiores Phred scores. Os valores abaixo de Q30

Figura 13. Análise do sequenciamento no software Vidjil para análise do número de ciclos de PCR. Cada linha no gráfico representa a frequência de um clonotipo V(D)J ao longo das amostras da curva-padrão. O clonotipo correspondente à célula leucêmica está representado em vermelho. A análise exemplificada acima correspondente às amostras preparadas com 25 ciclos de PCR, com um gráfico similar havendo sido gerado para cada condição testada (17, 20 e 23 ciclos).

(52)

observados para algumas amostras estiveram majoritariamente associados às amostras preparadas utilizando 17 ciclos de PCR na primeira etapa e às amostras D0, possivelmente pelo uso de menores quantidades de DNA em relação à curva-padrão.

(53)

3. Teste de Concentração de PhiX

Esse ensaio foi realizado utilizando a enzima Phusion High-Fidelity DNA Polymerase, uma vez que ela ainda não havia sido substituída pela GoTaq G2 Hot Start DNA Polymerase.

A concentração mínima de PhiX usualmente recomendada pela Illumina para NGS de amplicons é de 20% da quantidade total de moléculas no pool da biblioteca sequenciada. Isso corresponde a 20% de seu volume quando o pool de PhiX utilizado tem a mesma concentração molar do pool de bibliotecas em questão. No entanto, em função da elevação artificial da diversidade de amplicons causada pelos nucleotídeos N adicionados às variantes do primer Biomed2 JH consenso utilizadas na Amplicon PCR, a concentração mínima de PhiX acionada ao pool de bibliotecas pode ser reduzida.

Foram testadas então diferentes concentrações de PhiX para o sequenciamento de bibliotecas para NGS DRM. Para isso, utilizou-se como template um ponto de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável, na proporção 10-3. Essa amostra foi sequenciada 3 vezes, em corridas de sequenciamento distinta. Foram utilizados 600 ng de gDNA da amostra no preparo de sua biblioteca. A cada corrida realizada, diferentes volumes de PhiX 8pM foram adicionados ao pool de bibliotecas 8pM para sequenciamento. Os valores testados foram: 10% do volume do pool de bibliotecas (60 µL de PhiX e 540 µL de pool), 7,5% (45 µL de PhiX e 555 µL de pool) e 5% (30 µL de PhiX e 570 µL de pool).

As amostras contendo 10% e 7,5% de PhiX não apresentaram problemas em suas corridas, com altas taxas de clusters aprovados pelo filtro de qualidade do aparelho (%PF) e boas médias de nucleotídeos sequenciados que atingiram níveis de qualidade Q30 (Avg %Q30). Já a amostra contendo 5% de PhiX teve a sua corrida interrompida em função da baixa qualidade de clusters observada (Figura 14). A frequência do clonotipo leucêmico observada para ambas as amostras de fato sequenciadas foi bastante semelhante, sendo de 0,803% para a amostra contendo 10% de PhiX e de 0,809% para 7,5% de PhiX. Ambas as condições, portanto, mostraram-se apropriadas para o método de DRM NGS. No entanto, padronizou-se 10% de PhiX como o volume padrão adicionado ao pool de bibliotecas, mantendo-se

(54)

esse fator mais distante do seu threshold de falha, reduzindo a chance de ocorrerem erros no sequenciamento ligados a baixa diversidade de amplicons.

Figura 14. Resumo dos parâmetros de qualidade para corridas com diferentes concentrações de PhiX. Taxa de clusters aprovados pelo filtro de qualidade do MiSeq representada por %PF. Média de nucleotídeos sequenciados que atingiram níveis de qualidade Q30 representada por Avg %Q30.

(55)

4. Spike-in Control

Os ensaios para testar o uso de moléculas spike-in control utilizaram apenas 9 das 21 sequências de rearranjo V(D)J de IgH clonadas descritas na Tabela 1S. As sequências spike-in control utilizadas, o seu número de cópias adicionado às amostras sequenciadas, bem como suas famílias VH, estão representadas na Figura

15.

4.1. Teste do uso de Spike-In Controls para Determinar NGS DRM

O ensaio foi realizado utilizando três pontos de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável, nas proporções 5 x 10-5, 5 x 10-4 e 5 x 10-3. O rearranjo V(D)J de IgH da LLA-B derivada utilizada possuía seu segmento VH pertencente à família 6. Foram utilizados 600 ng de gDNA para cada amostra amplificada. A qualidade dos dados gerados pelo sequenciamento foi analisada utilizando os softwares FastQC e MultiQC (Figura 16) enquanto a análise dos dados em si utilizou o software Vidjil (Figura 17).

Figura 15. Número de cópias de cada spike-in control adicionado às amostras para determinação de NGS DRM. Nome, família VH e número de cópias de cada

spike-in control utilizado. O rearranjos V(D)J de IgH dos controles apresentavam

segmentos VH das famílias 1 (vermelho), 2 (azul) ou 3 (verde). Escala considerando 100 (100%) como 200.000 genomas (100.000 células), ou 600 ng de DNA.

Referências

Documentos relacionados