• Nenhum resultado encontrado

IV. FORMA DE ANÁLISE DOS RESULTADOS

6. Comparação de Custo entre qPCR DRM e NGS DRM

Os custos dos métodos para a quantificação de DRM por qPCR e NGS foram comparados (Tabela 10). Nessa análise, determinou-se o custo por paciente da determinação da DRM por análise de marcadores IgH. Para a determinação de DRM por qPCR, é aconselhável o acompanhamento de pelo menos menos dois marcadores moleculares por paciente. Desse modo, considerou-se o custo do acompanhamento de dois marcadores IgH por paciente. Já para a quantificação de DRM por NGS, levou- se em consideração o custo por paciente da corrida de duas flow cells (uma para a análise de amostras D0 e uma para D35) contendo amostras de 20 pacientes cada. Os preços dos reagentes consumíveis utilizados nessa análise financeira foram embasados em cotações obtidas durante o ano de 2018. Os valores de mão de obra considerados foram baseados no valor de uma bolsa de Treinamento Técnico V a partir de setembro de 2018 (R$ 7372,40).

Através dessa análise financeira, constatou-se um custo de R$ 1162,18 por paciente para a quantificação de DRM através no método de qPCR DRM e de R$ 520,32 através da NGS DRM.

Tabela 10. Comparação dos custos da quantificação de DRM por paciente através

VI. DISCUSSÃO

A LLA é o câncer mais prevalente em crianças, correspondendo a cerca de 25% das neoplasias malignas nessa faixa etária. Apesar dos altos índices de sobrevida livre atingidos pelos protocolos de tratamento atuais (cerca de 90%), ainda existe muito espaço para melhorias, uma vez que apenas entre 20% a 35% das crianças que apresentam relapso após remissão clínica sobrevivem, por exemplo.

Nesse contexto, a determinação da DRM desses pacientes em diferentes time points ao longo do seu tratamento se caracteriza como um dos mais importantes fatores prognósticos para essa doença. Essa avaliação permite estratificar essas crianças em diferentes grupos de risco, ajustando seus protocolos de tratamento de modo a elevar suas taxas de sobrevida e reduzir efeitos colaterais relacionados aos fármacos utilizados no combate a LLA. Como exemplo, valores de DRM maiores que 10-3 são geralmente associados à maiores taxas de recaídas.

Atualmente, o protocolo do Grupo Brasileiro de Tratamento da Leucemia Infantil (GBTLE LLA-2009), avalia a DRM no 15° dia após o início da terapia de indução por citometria de fluxo e no 35° dia por qPCR. Enquanto essas técnicas, em particular a qPCR, são ainda consideradas gold standards para esse exame, elas apresentam limitações-chave que devem ser consideradas na avaliação do panorama da DRM para o futuro. A citometria de fluxo requer análise imediata da amostra, exige alto grau de experiência do analista e tem dificuldade em atingir níveis de sensibilidade maiores que 10-4. Já a qPCR demanda a confecção de primers paciente-específicos para cada marcador analisado para um paciente. Essa necessidade torna a detecção de DRM por qPCR cara e demorada. Devido a essa conjuntura, apenas cerca de 3,2% das crianças diagnosticadas com LLA no Brasil tem acesso ao exame de DRM.

Esse contexto demonstra a necessidade do desenvolvimento de novas técnicas para acompanhar a DRM nesses pacientes. O sequenciamento de nova geração tem sido sugerido como um possível candidato para substituir as técnicas atualmente em uso, prometendo uma análise mais rápida, de menor custo e com a possibilidade de acompanhar diversos clonotipos leucêmicos presentes em uma mesma amostra sem requerer nenhum esforço adicional. A título de comparação, a determinação da DRM de um paciente por qPCR leva cerca de 23 dias, enquanto

essa mesma determinação por NGS pode ser realizada em cerca de 6 dias. Nesse projeto, buscamos padronizar e validar um método para a determinação de NGS DRM em pacientes pediátricos com LLA-B derivada, a variedade mais comum de LLA na criança. A plataforma de sequenciamento utilizada foi o Illumina MiSeq.

Sequências de rearranjo V(D)J no gene IgH são consideradas os melhores marcadores moleculares para esse tipo de LLA, devido ao seu alto grau de polimorfismo e estabilidade nos linfoblastos leucêmicos. Assim como esse marcador é utilizado para a identificação e quantificação de linfoblastos leucêmicos na medula óssea pela qPCR DRM, nós exploramos o uso do seu sequenciamento para a determinação da NGS DRM. A conversão dos reads gerados pelo sequenciamento em valores de DRM exige a normalização da frequência do clonotipo leucêmico por spike-in controls e a determinação do número de células mononucleadas totais referentes à amostra sequenciada. Princípios semelhantes foram explorados por Faham et al. (2012) e Ladetto et al. (2014), através do método comercial fechado LymphoSIGHT (Sequenta).

O preparo das bibliotecas para determinação de NGS DRM envolve duas etapas de amplificação da região de rearranjo V(D)J do gene IgH. A primeira etapa, denominada Amplicon PCR, é particularmente complexa, por se tratar de uma reação em multiplex. Desse modo, buscamos padronizar essa reação de modo a obter bandas bem definidas para o amplicon alvo, de cerca de 300 pares de base, e minimizar a formação de primer-dimer. Para isso, nós ajustamos a concentração de primer utilizada no preparo da reação e a temperatura de anelamento dos primeiros ciclos da PCR, através de uma touchdown PCR. Além disso, três enzimas (Tth DNA Polymerase, Phusion High-Fidelity DNA Polymerase e GoTaq G2 Hot Start DNA Polymerase) foram testadas para o protocolo estabelecido para a Amplicon PCR. As enzimas Phusion e GoTaq apresentaram bons resultados, com baixos índices de formação de primer-dimer observados. Dentre elas, enzima GoTaq G2 Hot Start DNA Polymerase foi definida como a padrão para o método de NGS DRM, em função do seu menor custo e maior facilidade de acesso a pronta entrega, fatores relevantes no contexto de uma técnica que se pretende utilizar para realizar diagnósticos clínicos.

Vieses de amplificação diferencial entre os amplicons gerados podem ocorrer em reações de PCR multiplex, como a Amplicon PCR. Desse modo, número mínimo de ciclos de amplificação realizados nessa etapa do preparo das bibliotecas foi

testado, uma vez que a redução desse valor privilegia a restrição desses vieses. Os valores testados para esse parâmetro foram 17, 20, 23 e 25 ciclos de amplificação. Nós determinamos 25 como o número de ciclos a ser utilizado na Amplicon PCR no preparo das bibliotecas para NGS DRM, uma vez que esse valor foi o único a não ocasionar em uma redução da linearidade da técnica, quando testada nos pontos 10- 3 e 10-4 de uma curva padrão de DNA leucêmico em DNA de PBMCs. Além do mais, valores menores de ciclos de amplificação estiveram associados a queda na qualidade dos reads gerados pelo sequenciamento de suas bibliotecas.

A plataforma de sequenciamento Illumina MiSeq apresenta dificuldade em sequenciar bibliotecas com baixos níveis de diversidade, como no caso do sequenciamento de bibliotecas de um amplicon. Nesses casos, a Illumina recomenda a adição de pelo menos 20% de genomas PhiX às bibliotecas para elevar artificialmente a sua diversidade. Outra estratégia para realizar essa elevação de diversidade consiste no uso de diferentes variedades do reverse primer na etapa de Amplicon PCR, com a adição de entre 0 a 3 nucleotídeos N na região onde o início do sequenciamento em si ocorre. Desse modo, amplicons gerados por diferentes primers não estarão em fase durante os ciclos de sequenciamento.

Utilizando essa estratégia, nós buscamos reduzir a quantidade de genomas PhiX adicionada às bibliotecas, uma vez que esses controles ocupam espaço na flow cell, diminuindo o número de dados relacionados à amostra gerado por sequenciamento. Nós testamos o sequenciamento de uma mesma amostra utilizando 10%, 7,5% ou 5% de PhiX na concentração final da sua biblioteca. Enquanto o sequenciamento ocorreu sem maiores problemas para as bibliotecas com 10% e 7,5% de PhiX, a corrida da biblioteca com 5% desse controle falhou pela baixa qualidade dos clusters gerados. Para as bibliotecas com 10% e 7,5% de PhiX, os níveis de clusters aprovados pelo filtro de qualidade do sequenciador (89,88% contra 89,52%), de nucleotídeos sequenciados que atingiram níveis de qualidade Q30 (90,22% contra 90,22%) e a frequência do clonotipo leucêmico (0,803% contra 0,809%) foram bastante semelhantes. No entanto, nós decidimos padronizar a adição de PhiX a biblioteca em 10% de sua concentração, mantendo o método mais distante do threshold de falha desse parâmetro, uma vez que a ocorrência desse tipo de falha ocasiona a perda total da corrida do sequenciamento.

O uso dos spike-in controls para determinar a NGS DRM ao longo de uma curva padrão de DNA leucêmico em DNA de PBMCs resultou, inicialmente, em valores de NGS DRM cerca de uma ordem de grandeza acima dos esperados. A estrutura supercoiled de plasmídeos pode levar a uma redução da sua eficiência de amplificação (Chen et al., 2007), o que explicaria a obtenção de valores de NGS DRM mais elevados que o esperado. Em concordância a essa hipótese, a linearização das moléculas de spike-in control permitiu a redução das NGS DRM observadas, trazendo-as para níveis bastante similares aos esperados.

Clonotipos com segmentos VH pertencentes a diferentes famílias são amplificados por diferentes primers durante a etapa de Amplicon PCR. Desse modo, uma diferença de eficiência desses oligonucleotídeos pode levar a uma amplificação diferencial desses clonotipos. Assim sendo, a utilização de apenas controles spike-in contendo segmentos VH da mesma família do clonotipo leucêmico analisado no cálculo de sua NGS DRM pode ser necessária, dependendo dos níveis dessa amplificação diferencial.

Nós realizamos um experimento que comparou, para uma curva-padrão de DNA leucêmico em DNA de PBMCs, os níveis de NGS DRM determinados utilizando apenas controles spike-in de uma mesma família VH. Os valores de NGS DRM foram normalizados por controles de família VH1, VH2 ou VH3. Através desse ensaio, observamos diferenças principalmente nos valores de NGS DRM determinados a partir de moléculas spike-in com rearranjos VH3, quando comparados aos valores determinado através de controles VH1 e VH2. Esse resultado demonstrou que o uso de apenas spike-in controls com segmento VH da mesma família que a do clonotipo leucêmico analisado pode ser necessária. Esse princípio foi levado em consideração em todas as etapas de análise da validação do método de NGS DRM, com valores de NGS DRM Geral e NGS DRM Família sendo determinados para todos os clonotipos analisados e a eficiência de ambas as abordagens sendo comparadas.

A validação do método de NGS DRM se deu através da análise de amostras de 45 pacientes pediátricos diagnosticados com LLA-B derivada. Dos 58 clonotipos leucêmicos analisados nessas amostras por qPCR DRM, 55 foram identificados também pela NGS DRM, sendo então utilizados para a comparação dos dois métodos. A NGS DRM, no entanto, foi capaz de identificar 32 clonotipos leucêmicos além dos 55 já mencionados, totalizando 87 clonotipos leucêmicos identificados para as 45

amostras analisadas. A análise de mais de um marcador IgH por qPCR para um paciente requer a síntese de mais de um primer paciente-específico, tantos quanto forem os marcadores utilizados. Em contraste, a NGS DRM é capaz de identificar e acompanhar diversos clonotipos leucêmicos por paciente sem a necessidade de esforços adicionais.

A comparação entre os resultados de NGS DRM e qPCR DRM foi realizada não só através de correlações matemáticas (coeficiente de correlação de Pearson), mas também a partir da sua relevância clínica. Para essa segunda análise, valores de NGS DRM com diferença absoluta menores que 1 x 10-4 em relação a qPCR DRM ou fold changes menores que 5 foram considerados satisfatórios. Desse modo, a frequência de amostras com DRM satisfatórias foi de 92,7% quando levando em consideração a NGS DRM Geral e de 90,9% quando utilizando a NGS DRM Família.

No entanto, uma presença aquém da esperada de reads relacionados a sequências de spike-in controls foi observada para o último subset de pacientes sequenciados em uma mesma corrida (as amostras D35 para essa etapa de validação final foram sequenciadas em três corridas do sequenciador MiSeq). Essa sub- representação de reads de spike-in control levou a valores de NGS DRM com erros de fold change mais elevados para esse terceiro subset de amostras (média de 6,04 vezes) em relação ao primeiro (média de 1,8 vez) e ao segundo (média de 2,00 vezes).

Assim sendo, nós repetimos as análises dos índices de NGS DRM considerados satisfatórios em relação a qPCR quando comparados de um ponto de vista clínico, dessa vez excluindo o terceiro subset de amostras previamente mencionado. Nesse contexto, a frequência de amostras com DRM satisfatórias foi de 95,1% quando levando em consideração a NGS DRM Geral e de 92,7% quando utilizando a NGS DRM Família.

A correlação matemática entre os valores de NGS DRM observados e os valores de qPCR esperados foi realizada convertendo esses valores para uma escala log10 e determinando o seu coeficiente de correlação de Pearson. Em função da conversão de escala, clonotipos leucêmicos que tiveram uma de suas DRM (seja ela a DRM esperada, geral ou família) com valor 0 foram excluídos da análise, contanto que nenhum dos seus outros valores de DRM fosse superior a 1 x 10-4. Essa exclusão se deu em função da correlação entre um valor muito pequeno e 0, quando realizada

em escala logarítmica na base 10, introduzir altos níveis de erro na análise, uma vez que a conversão de valores decimais a essa escala os afasta cada vez mais de 0 quanto menor for esse valor.

Os valores de NGS DRM dos clonotipos analisados apresentaram forte correlação aos valores de qPCR DRM esperados, com um coeficiente de Pearson de 0,88 para as NGS DRM Geral e de 0,91 para as NGS DRM Família. Essa análise também foi realizada novamente à exclusão dos clonotipos do terceiro subset de amostras sequenciadas, atingindo um coeficiente de correlação de Pearson de 0,88 para a NGS DRM geral e de 0,92 para a NGS DRM Família.

A frequência desses clonotipos leucêmicos, sem normalização a valores de DRM, também foi comparada e correlacionada aos valores esperados de qPCR. Observamos um coeficiente de correlação de Pearson de 0,78 para essas variáveis incluindo o terceiro subset de amostras e de 0.81 quando excluindo esse subset da análise. Esse grau de correlação, portanto, mostrou-se inferior aos obtidos utilizando o sistema de spike-in control para a normalização do número de reads de um clonotipo leucêmico em DRM. No mais, a relevância clínica das frequências de clonotipos leucêmicos não pode ser facilmente estabelecida pelos parâmetros padronizados para DRM, uma vez que os seus valores são, no geral, entre uma a duas ordens de grandeza maiores que suas contrapartes em DRM.

Através dessas análises, concluímos que o método de NGS DRM é capaz de gerar resultados satisfatórios quando comparados a qPCR DRM, seja de um ponto de vista de relevância clínica dos resultados quanto em relação à correlação matemática entre esses valores. Adicionalmente, os níveis de correlação entre essas variáveis atingidos pelo nosso método são comparáveis aos obtidos em estudos baseados no sistema comercial fechado LymphoSIGHT, como por Faham et al. (2012) e Ladetto et al. (2014). Além disso, a sua taxa de correlação foi superior quando comparada a sistemas que não utilizam controles para normalizar a frequência do clonotipo leucêmico a um valor de DRM, como nesse próprio projeto e em um estudo por Kotrova et al. (2015). Desse modo, consideramos que o principal objetivo do projeto foi atingido.

Não foi possível, no entanto, determinar se um dos métodos de normalização dos reads de um clonotipo leucêmico em DRM é significativamente superior. Por um

lado, os valores de NGS DRM calculados utilizando apenas spike-in controls com a mesma família VH do clonotipo leucêmico analisado apresentaram coeficientes de correlação de Pearson levemente superiores. No entanto, o número de reads de apenas três spike-in controls é levado em consideração nessa análise, uma vez que cada família VH possui apenas 3 representantes nas 21 sequências controle. Desse modo, o cálculo da NGS DRM a partir desse conjunto se torna altamente sensível a comportamentos erráticos acentuados dos reads dessas sequências. Em casos raros, por exemplo, é possível que o fator spike-in para um clonotipo leucêmico seja negativo, resultando em uma NGS DRM menor que 0, que não possui nenhum sentido biológico.

Já os valores de NGS DRM calculados a partir do uso de todas as 21 sequências spike-in utilizadas são bem menos sensíveis a problemas na amplificação de uma ou duas moléculas de controle, uma vez que o maior número de sequências utilizadas nesse cálculo o torna mais robusto a resistir a influência de outliers. Assim sendo, a análise de um maior volume de dados de NGS DRM é necessária para compreender melhor as limitações de cada abordagem de determinação de DRM. Apenas assim poderemos determinar com confiança se há de fato uma opção superior entre a NGS DRM Geral e a NGS DRM Família.

As taxas anormais de fold change entre NGS DRM e qPCR DRM observadas para o terceiro subset de amostras sequenciadas estiveram majoritariamente relacionadas a uma sub-representação de reads relacionados aos spike-in controls nessas bibliotecas, como anteriormente mencionado. Nós hipotetizamos que esse erro possa estar vinculado a uma subamplificação das sequências spike-in control adicionadas às bibliotecas. Essa subamplificação poderia ter sido ocasionada, por exemplo, por um maior grau de degradação do pool de spike-in controls em decorrência do maior tempo desde o seu preparo, uma vez que esse foi o último grupo de amostras a ser sequenciado. Outra hipótese que pode explicar esse erro é uma simples falha operacional na adição do pool de spike-in controls a essas bibliotecas.

Considerando a utilização do método de NGS DRM em situações de diagnósticos clínicos reais, não haverá resultados de qPCR para servir de parâmetro na identificação desses erros. Pacientes com níveis de DRM reais baixos poderiam então vir a ser enquadrados como apresentando taxas de DRM mais elevadas, com a possibilidade até do seu caso ser classificado erroneamente como de alto risco,

gerando então um falso-positivo. Desse modo, é importante que existam ferramentas que permitam a identificação de corridas de sequenciamento que apresentam esse tipo de de erro, independentemente de sua origem. Nesse contexto, nós observamos que a média ou a mediana dos coeficientes de amplificação spike-in (definido para uma amostra como a razão entre o seu total de reads contendo rearranjos V(D)J e o seu total de reads relacionados a sequências spike-in control) das amostras de um sequenciamento pode ser uma dessas ferramentas. Para o nosso caso em particular, a média e mediana desses coeficientes de amplificação spike-in foi de 7,12 e 5,24 respectivamente para o terceiro subset de amostras e de 4,92 e 3,20 para as demais amostras. A consolidação definitiva desses coeficientes de amplificação spike-in como um parâmetro para avaliar a sub-representação de reads de controles em corridas de sequenciamento, no entanto, ainda depende da sua padronização e de estudos em um maior número de casos.

Apesar do método para a quantificação de DRM por NGS proposto neste projeto ter sido padronizado e validado com sucesso, atingindo resultados satisfatórios tanto de um ponto de vista de sua relevância clínica quanto de um ponto de vista matemático, ainda há muita margem para aperfeiçoamentos e desenvolvimentos futuros.

O conjunto de sequências V(D)J spike-in control utilizado para normalizar o número de reads de clonotipos leucêmicos em valores de DRM ainda pode, por exemplo, ser otimizado. Nesse estudo, utilizamos 21 sequências de rearranjos IgH para realizar essa normalização, buscando representar uniformemente as 7 famílias de segmentos VH possíveis para esses rearranjos. É razoável, no entanto, que seja possível quantificar a NGS DRM com níveis de sensibilidade e linearidade semelhantes ou até mesmo superiores aos aqui obtidos partindo de um conjunto menor de controles. Já no caso de acabarmos optando pela utilização da NGS DRM família-específica, pode ser que a adição de mais controles externos de cada família VH ao ensaio seja necessária, para reduzir o quanto o valor final de NGS DRM estimado é afetado por problemas na amplificação de algum desses spike-in controls. Desse modo, o número ótimo de sequências spike-in controls que deve utilizado na NGS DRM só poderá ser determinado através de uma exploração mais a fundo dos

Documentos relacionados