IV. FORMA DE ANÁLISE DOS RESULTADOS
4. Spike-in Control
Os ensaios para testar o uso de moléculas spike-in control utilizaram apenas 9 das 21 sequências de rearranjo V(D)J de IgH clonadas descritas na Tabela 1S. As sequências spike-in control utilizadas, o seu número de cópias adicionado às amostras sequenciadas, bem como suas famílias VH, estão representadas na Figura
15.
4.1. Teste do uso de Spike-In Controls para Determinar NGS DRM
O ensaio foi realizado utilizando três pontos de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável, nas proporções 5 x 10-5, 5 x 10-4 e 5 x 10-3. O rearranjo V(D)J de IgH da LLA-B derivada utilizada possuía seu segmento VH pertencente à família 6. Foram utilizados 600 ng de gDNA para cada amostra amplificada. A qualidade dos dados gerados pelo sequenciamento foi analisada utilizando os softwares FastQC e MultiQC (Figura 16) enquanto a análise dos dados em si utilizou o software Vidjil (Figura 17).
Figura 15. Número de cópias de cada spike-in control adicionado às amostras para determinação de NGS DRM. Nome, família VH e número de cópias de cada
spike-in control utilizado. O rearranjos V(D)J de IgH dos controles apresentavam
segmentos VH das famílias 1 (vermelho), 2 (azul) ou 3 (verde). Escala considerando 100 (100%) como 200.000 genomas (100.000 células), ou 600 ng de DNA.
Phre d Sc ore Position (bp)
Figura 16 Controle de qualidade no software MultiQC do sequenciamento do ensaio para análise do spike-in control. Cada linha representa o Phred score médio por par de base dos reads de uma das amostras sequenciadas. Scores acima de Q30 (porção verde do gráfico) são considerados como apresentando boa qualidade.
Figura 17. Análise do sequenciamento no software Vidjil para determinação de NGS DRM. Cada linha no gráfico representa a frequência de um clonotipo V(D)J ao longo das amostras da curva-padrão. O clonotipo correspondente à célula leucêmica está representado em vermelho. Os clonotipos provenientes de um spike-in control contendo um rearranjo VH1 estão representados em azul, contendo VH2 em rosa e contendo VH3 em verde. As porcentagens representadas na legenda correspondem ao ponto 5 x 10-3 da curva-padrão sequenciada.
Tanto o clonotipo correspondente ao linfoblasto leucêmico, quanto os clonotipos correspondentes a sete dos nove spike-in control adicionados, foram identificados utilizando a web application do software Vidjil. No entanto, dois clonotipos de spike-in control (2047 e 2227, das famílias VH2 e VH3 respectivamente) não foram observados nessa versão do software. No entanto, através da execução desse programa em sua versão CLI, foi possível identificar esses dois clonotipos restantes através da modificação dos parâmetros de número máximo de clones computados contendo uma sequência consenso (de 100 para 1000) e de número máximo de clones a serem analisados com uma designação V(D)J completa (de 100 para 1000). O comando utilizado para a execução do algoritmo encontra-se a seguir:
<path_to_vidjil> -c clones -g <path_to_germline> -2 -3 -y 1000 -z 1000 -l <file_containing_the_sequences_of_interest> -F <fastq_file>
Os valores de NGS DRM para as três amostras sequenciadas foram determinados através do uso das nove sequências de spike-in control, conforme o método explanado previamente na Figura 5. Para análises de regressão linear, valores de DRM são convertidos para uma escala logarítmica em base 10, em função da vasta gama de valores que os números absolutos de DRM abrangem. Um resumo desses valores de NGS DRM obtidos estão representados na Figura 18.
Através da análise dos dados de NGS DRM obtidos, é possível observar que todos os valores corrigidos através do uso do spike-in control se encontram bastante elevados, apresentando erros de fold change mais de uma ordem de grandeza acima do esperado. Esse resultado evidencia uma possível subamplificação dos spike-in control em relação ao restante do DNA presente na biblioteca para sequenciamento.
4.2. Teste do uso de Spike-In Controls linearizados para Determinar NGS DRM
Partindo da subamplificação observada das moléculas spike-in control durante o preparo das bibliotecas para sequenciamento, hipotetizou-se que a estrutura supercoiled dos plasmídeos no qual esses controles se encontram poderia estar prejudicando a ocorrência da PCR em condições ótimas nessas moléculas. Assim sendo, realizou-se um experimento comparando a NGS DRM de amostras contendo supercoiled spike-in controls a amostras contendo spike-in controls linearizados.
Figura 18. Comparação da NGS DRM determinada através do uso de diferentes conjuntos de spike-in control. Representação dos valores de -log10 de NGS DRM para
as três amostras sequenciadas (5 x 10-5, 5 x 10-4 e 5 x 10-3) calculados através do uso
do spike-in control utilizados (azul). Os valores esperados de DRM para as amostras estão representados em vermelho. Valores de DRM em unidade arbitrária.
O ensaio foi realizado utilizando, para ambas as condições testadas, três pontos de uma curva-padrão de gDNA de LLA-B derivada em gDNA de PBMC saudável, nas proporções 5 x 10-5, 5 x 10-4 e 5 x 10-3. O rearranjo V(D)J da LLA-B derivada utilizada possuía seu segmento VH pertencente a família 6. Foram utilizados 600 ng de gDNA para cada amostra amplificada. A qualidade dos dados gerados pelo sequenciamento foi analisada utilizando os softwares FastQC e MultiQC (Figura 19) enquanto a análise dos dados em si utilizou o software Vidjil (Figura 20).
Phre d Sc ore Position (bp)
Figura 19. Controle de qualidade no software MultiQC do sequenciamento do ensaio para comparação do supercoiled spike-in control ao spike-in control linear. Cada linha representa o Phred score médio por par de base dos reads de uma das amostras sequenciadas. Scores acima de Q30 (porção verde do gráfico) são considerados como apresentando uma boa qualidade.
A NGS DRM para todas as seis amostras sequenciadas foi determinada, novamente utilizando o método descrito anteriormente. Desse modo, comparou-se os valores de NGS DRM obtidos através da normalização por spike-in controls linearizados ou por supercoiled spike-in controls aos valores de DRM esperados para essas amostras (Figura 21).
Figura 20. Análise do sequenciamento no software Vidjil para comparação de valores de NGS DRM determinados por supercoiled spike-in control ou por spike- in control linear. Cada linha no gráfico representa a frequência de um clonotipo V(D)J ao longo das amostras da curva-padrão. O clonotipo correspondente à célula leucêmica está representado em vermelho. Os clonotipos provenientes de um spike-in control contendo um rearranjo VH1 estão representados em azul, contendo VH2 em rosa e contendo VH3 em verde. O gráfico apresentado corresponde às amostras contendo o
spike-in control linearizado, com um gráfico semelhante havendo sido gerado para as
amostras contendo o controle supercoiled. As porcentagens representadas na legenda correspondem ao ponto 5 x 10-3 da curva-padrão contendo spike-in controls linearizados.
Através dessa análise, é possível observar que a linearização dos plasmídeos contendo os spike-in control evitou a sua subamplificação, permitindo a determinação de valores de NGS DRM muito mais próximos ao esperado, quando comparado aos plasmídeos não-linearizados. Desse modo, padronizou-se o uso de moléculas spike- in controls linearizadas no método de NGS DRM. Todos os experimentos descritos a partir desse teste foram realizados com plasmídeos spike-in control linearizados.
4.3. Teste de Amplificação Diferencial de Moléculas Spike-In Control
Rearranjos V(D)J de IgH com famílias VH distintas são amplificadas por diferentes forward primers na etapa de Amplicon PCR do método de NGS DRM. Desse modo, foi testado se a determinação da NGS DRM é afetada ao se utilizar nesse cálculo todos os spike-in controls adicionados à amostra (General NGS MRD), ou apenas as moléculas com famílias VH1 (VH1 NGS MRD), VH2 (VH2 NGS MRD)
Figura 21. Comparação da NGS DRM determinada através do uso de spike-in control linearizado ou supercoiled. Representação dos valores de -log10 NGS
DRM para as amostras sequenciadas, que receberam supercoiled spike-in control (em azul) ou spike-in control linearizado (em verde). A DRM esperada para as amostras está representada em vermelho. Valores de DRM em unidade arbitrária.
ou VH3 (VH3 NGS MRD) (Figura 22). Essa análise foi realizada a partir dos dados obtidos para as amostras contendo controles linearizados do experimento descrito na seção anterior.
Observou-se que valores de NGS DRM normalizados a partir de sequências contendo segmentos VH3 tendem a serem mais altos do que os normalizados utilizando sequências de família VH1 ou VH2. Isso indica um possível efeito de amplificação diferencial entre os controles contendo segmentos VH de diferentes famílias. Esse efeito pode se estender às sequências de rearranjo V(D)J da amostra na qual se determina a NGS DRM. Desse modo, notou-se a necessidade de um estudo mais profundo sobre melhor forma de utilização dos spike-in controls para a normalização dos reads obtidos durante o sequenciamento em dados de NGS DRM. Portanto, para a etapa de validação do método de NGS DRM, comparamos os valores
Figura 22. Comparação da NGS DRM determinada através do uso de diferentes conjuntos de spike-in control linearizado. Representação dos valores de -log10 NGS
DRM das amostras sequenciadas, calculados através do uso de todos os spike-in control utilizados (General NGS MRD, em marrom), ou utilizando apenas os controles contendo sequências com família VH1 (VH1 NGS MRD, em azul), VH2 (VH2 NGS MRD, em rosa) ou VH3 (VH3 NGS MRD, em verde). A DRM esperada para as amostras está representada em vermelho. Valores de DRM em unidade arbitrária.
de NGS DRM obtidos ao normalizar os reads dos clonotipos leucêmicos das amostras por todos os spike-in controls nela adicionados ou apenas pelos spike-in controls com segmento VH de mesma família que a de cada clonotipo leucêmico de cada amostra.