• Nenhum resultado encontrado

Avaliação dos dados de Corynebacterium pseudotuberculosis

4. RESULTADOS E DISCUSSÃO

4.2 Avaliação dos dados de Corynebacterium pseudotuberculosis

Os gráficos de dispersão para as variáveis conteúdo GC e cobertura demonstraram um mesmo padrão gráfico em forma de parábola na associação para amostras de C. pseudotuberculosis sequenciadas na plataforma SOLiD (Figura 12), e um padrão diferenciado entre as amostras de C. pseudotuberculosis obtidas a partir do sequenciador Illumina (Figura 13), apesar da espécie apresentar conservação gênica (Soares et al., 2013).

48 Figura 12. Gráficos de dispersão para amostras de Corynebacterium pseudotuberculosis

49 Comparação entre os gráficos de dispersão obtidos a partir dos softwares de mapeamento Bowtie 2 ( A1, B1, C1 e D1) e CLC Genomic Workbench (A2, B2, C2 e D2), onde não se observou diferença significativa entre os dados obtidos por estes alinhadores. Os pontos em vermelho no gráfico apresentam valores de GC e Cobertura acima da cobertura média normalizada representada graficamente pela reta horizontal que passa pelo valor 1 no eixo y. Os Pontos em azul mostram valores abaixo da cobertura média normalizada. A reta vertical que corta o gráfico, passa pelo conteúdo GC médio de cada organismo e portanto é específica para cada organismo.

50 Figura 13. Gráficos de dispersão para amostras de Corynebacterium pseudotuberculosis

51 Comparação entre os gráficos de dispersão obtidos a partir dos softwares de mapeamento Bowtie 2 (A1, B1 e C1) e CLC Genomic Workbench (A2, B2 e C2), onde não se observou diferença significativa entre os resultados dos distintos alinhadores. Os pontos em vermelho no gráfico apresentam valores de GC e Cobertura acima da cobertura média normalizada representada graficamente pela reta horizontal que passa pelo valor 1 no eixo y. Pontos em azul mostram valores abaixo da cobertura média normalizada. A reta vertical que corta o gráfico, passa pelo conteúdo GC médio de cada organismo e portanto é específica para cada organismo.

A avaliação das amostras pelo coeficiente de Pearson permitiu observar um viés positivo com alta correlação linear para os dados de Illumina (Figura 13), para SOLiD um viés diferenciado (Figura 12) com uma correlação não-linear (valores de r próximo de 0), e gráficos de dispersão em forma de parábola demonstrando uma associação quadrática ( y=x², onde y é a cobertura normalizada e x o conteúdo GC). Esta diferença pode ser resultado da química do sequenciamento, visto que a plataforma SOLiD é a única a utilizar a enzima DNA ligase no sequenciamento (Schlebusch & Illing, 2012).

Para as linhagens de C. pseudotuberculosis, não se observou diferenças significativas no valor do r e no gráfico de dispersão entre os diferentes alinhadores: CLC Genomic Workbench, Bowtie2 e Tmap, o que demonstra que o software de alinhamento não interfere na associação GC/Cobertura Normalizada (Tabela 7).

A fim de validar a possível relação do viés GC ao sequenciador, analisou-se a linhagem C. pseudotuberculosis 31 pertencente ao biovar equi e sequenciada na plataformas SOLiD e Ion Torrent PGM. Segundo os valores de r (Tabela 7), os dados de Ion Torrent PGM apresentaram uma associação linear de baixa a moderada (-0,49 – -0,52) para a linhagem 31 (Figura 14 – A1 e B1), enquanto que os dados de SOLiD para esta mesma linhagem apresentaram uma relação próxima a zero (-0,06 – -0,09) (Figura 12 – D1-2). Quanto ao gráfico de dispersão, observou-se um padrão quadrático (forma de parábola) para os dados de SOLiD (Figura 12), e moderadamente linear para Ion Torrent PGM (Figura 14 – A1 e B1).

O sequenciamento da C. pseudotuberculosis 31 também foi realizado utilizando a nova química de sequenciamentoIon Hi-Q™.Com estes dados, observou-se a redução dos valores de r (-0.25) quando comparados à plataforma Ion Torrent PGM, evidenciando a redução do viés GC para a categoria “Pouca ou Nenhuma Correlação” tanto no alinhamento realizado no CLC Genomics Workbench quanto no alinhamento realizado

52 pelo software Tmap (Figura 14.A2;Figura 14.B2). Esta redução pode ser avaliada ao se comparar os gráficos de dispersão, onde o sequenciamento utilizando a enzima Ion Hi-Q™ mostrou um padrão próximo a uma reta paralela ao eixo das abscissas (Figura 14.A2-B2).

Comparação entre a química de sequenciamento Ion Torrent PGM (A1 e B1) e a nova Ion Hi-Q™ Química de Sequenciamento (A2 e B2). Os pontos em vermelho no gráfico apresentam valores de GC e Cobertura acima da cobertura média normalizada representada graficamente pela reta horizontal que passa pelo valor 1 no eixo y. Pontos em azul mostram valores abaixo da cobertura média normalizada. A reta vertical que corta o gráfico, passa pelo conteúdo GC médio de cada organismo e portanto é específica para cada organismo. Figura 14. Gráfico de Dispersão para C. pseudotuberculosis 31

53 As linhagens C. pseudotuberculosis 258 e 31 foram as únicas a apresentarem associação negativa de acordo com os valores de Pearson (Tabela 7) para todas as plataformas, apesar de diferentes intensidades de correlação linear.

Em C. pseudotuberculosis 1002, cujo genoma foi sequenciado na plataforma 454, observou-se uma Baixa Correlação para a plataforma 454 (Figura 15). Os gráficos de dispersão apresentaram padrões de pontos distintos das outras plataformas e uma tendência a linearidade. Os valores de r para 454 foram de 0.42(Bowtie) e 0.47(CLC).

A linhagem 1002 sequenciada na plataforma 454 apresenta o r como baixa correlação, e observa-se uma tendência a elevação da linearidade. Os pontos em vermelho no gráfico apresentam valores de GC e Cobertura acima da cobertura média normalizada representada graficamente pela reta horizontal que passa pelo valor 1 no eixo y. Pontos em azul mostram valores abaixo da cobertura média normalizada. A reta vertical que corta o gráfico, passa pelo conteúdo GC médio de cada organismo e portanto é específica para cada organismo.

54 A avaliação da métrica de AT-dropout e GC-dropout em C. pseudotuberculosis para os dados das plataformas Illumina e SOLiD revelaram padrões opostos. Enquanto os valores de AT-dropout ficaram próximos de 0 (zero) para SOLiD, para Illumina variaram de 3% à 9%. Quanto ao valor de GC-dropout para a plataforma SOLiD, houve variação de 1.38% até 5.37%, enquanto que para Illumina, GC-dropout manteve-se próximo de 0 (zero) (Tabela 7).

Segundo os valores de r, a intensidade da associação linear foi mais evidente em dados de Illumina, seguida por Ion Torrent PGM, 454, Hi-Q e SOLiD, este último apresentando uma associação não-linear quadrática (Figura 16).

55 Tabela 7. Amostras de C. pseudotuberculosis e seus respectivos valores de r

NGS Espécie Alinhadores r Dropout AT (%) GC Dropout (%) Leituras alinhadas (%) Total de Leituras SOLID Corynebacterium pseudotuberculosis 258 CLC 0.09 - 0.44 4.41 95.89% 10.061.554 Bowtie 0.09 - 0.44 5.37 54.12% Corynebacterium pseudotuberculosis 267 CLC 0.01 0.43 3.13 80.00% 29.103.069 Bowtie 0.01 0.45 4.89 64.11% Corynebacterium pseudotuberculosis |19 CLC 0.21 0.42 1.42 87,10% 7.320.762 Bowtie 0.22 0.57 1.38 61.52% Corynebacterium pseudotuberculosis 31 CLC -0.06 0.63 1.59 88.86% 183.034.704 Bowtie -0.06 1.07 3.07 43.64% Illumina Corynebacterium pseudotuberculosis 1/06-A CLC 0.63 3.70 0.25 95.77% 8.717.549 Bowtie 0.53 3.71 0.25 95.51% Corynebacterium pseudotuberculosis 3/99-5 CLC 0.87 9.75 0.79 94,96% 14.431.252 Bowtie 0.87 9.77 0.80 94.40% Corynebacterium pseudotuberculosis 42/02-A CLC 0.71 3.20 0.16 96.83% 8.719.556 Bowtie 0.72 3.19 0.17 99.57% ION Corynebacterium pseudotuberculosis 31 CLC 0.49 - 0.02 2.53 79.64% 3.566.141 Tmap 0.52 - 0.01 2.56 87.24% HiQ Corynebacterium pseudotuberculosis 31 CLC 0.25 - 0.23 0.08 89.49% 5.898.526 Tmap 0.25 - 0.16 0.11 95.85% 454 Corynebacterium pseudotuberculosis 1002 CLC 0.42 0.50 0.03 91.54% 397.147 Bowtie 0.47 0.73 0.03 88.29%

56

5. CONCLUSÃO

A análise do viés GC através do coeficiente de Pearson mostrou-se eficaz e mais adequada na avaliação dos gráficos de dispersão na presença de associações lineares e não- lineares entre conteúdo GC e cobertura normalizada, tanto para os dados simulados por Chen et al., 2013 quanto para os dados de Corynebacterium pseudotuberculosis obtidos através do sequenciamento pelas distintas plataformas NGS, o que possibilitou avaliar os fatores que podem afetar a decodificação do DNA e sua influência no viés GC.

A avaliação das amostras de Corynebacterium pseudotuberculosis nas plataformas Illumina, SOLiD, 454, Ion Torrent PGM com e sem a enzima Hi-Q, permitiu definir a correlação de linearidade do viés GC associado as tecnologias de sequenciamento (Figura 13), principalmente no tocante às suas químicas, considerando a redução do viés observado para o sequenciamento com a química de sequenciamento Hi-Q para Ion Torrent PGM.

Identificou-se um viés diferenciado para a plataforma SOLiD onde a associação não-linear e quadrática foi confirmada pelos gráficos de dispersão e valores de r. Este viés quadrático pode ser uma influência da química de sequenciamento diferenciada desta tecnologia que é o único NGS a utilizar a enzima DNA ligase ao invés da polimerase.

Observa-se o sentido crescente da força de correlação linear, iniciando pela plataforma SOLiD (associação não linear), seguindo para Hi-Q, 454, Ion Torrent PGM e Illumina, com associações lineares de diferentes intensidades.

Figura 16. Relação da intensidade da correlação linear associado às plataformas de sequenciamento.

57 A metodologia utilizada neste trabalho pode ser aplicada para outras plataformas e organismos a fim de identificar presença ou ausência de viés GC. Mesmo na ausência deste viés, o coeficiente de Pearson junto ao gráfico de dispersão são aplicáveis, pois os valores de Pearson para um viés nulo ou quase inexistente seriam muito próximos a zero. Além disto, observaria-se um gráfico de dispersão no qual os pontos se aproximariam de uma reta paralela ao eixo das abscissas, não havendo comportamento quadrático em qualquer gráfico analisado sem viés.

O viés GC pode ser resultado de diversos fatores: amplificação da biblioteca por PCR em análises genômicas como transcriptômicas (Aird et al., 2011; Korf, 2013), química de sequenciamento, além do conteúdo GC de cada organismo que influencia no grau e intensidade deste viés. No presente estudo, a associação do viés GC às diferentes plataformas foi confirmado, tendo como modelo Corynebacterium pseudotuberculosis. Esta informação pode auxiliar a definição dos parâmetros de softwares para análises baseadas em cobertura de sequenciamento, como montagem de genomas (por referência ou abordagem de novo) e análises de transcriptômicas.

58

6. REFERÊNCIAS BIBLIOGRÁFICAS

Aird D, Ross M G, Chen W-S, Danielsson M, Fennell T, Russ C, Jaffe D B, Nusbaum C, and Gnirke A (2011). Analyzing and minimizing PCR amplification bias in Illumina sequencing libraries. Genome biology, 12(2), R18. BioMed Central Ltd.

Asuero a. G, Sayago a., and González a. G (2006). The Correlation Coefficient: An Overview. Critical Reviews in Analytical Chemistry, 36(1), 41–59.

Benjamini Y, and Speed T P (2012). Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic acids research, 40(10), e72.

Carvalho M da C G de, and Silva D da (2010). Sequenciamento de DNA de nova geração e suas aplicações na genômica de plantas. Ciência Rural, 735–744.

Chen Y-C, Liu T, Yu C-H, Chiang T-Y, and Hwang C-C (2013). Effects of GC bias in next-generation-sequencing data on de novo genome assembly. PloS one, 8(4), e62856.

Henson J, Tischler G, and Ning Z (2012). Next-generation sequencing and large genome assemblies. Pharmacogenomics, 13(8), 901–915.

Kaur R, and Malik C (2013). Next Generation Sequencing: A REVOLUTION IN GENE SEQUENCING, 2(4), 1–20.

Korf I (2013). Genomics: the state of the art in RNA-seq analysis. Nature methods, 10(12), 1165–6. Nature Publishing Group.

Langmead B, and Salzberg S L (2012). Fast gapped-read alignment with Bowtie 2. Nature methods, 9(4), 357–9.

Li H, and Durbin R (2009). Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics (Oxford, England), 25(14), 1754–60.

Li H, and Durbin R (2010). Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics (Oxford, England), 26(5), 589–95.

Liu L, Li Y, Li S, Hu N, He Y, Pong R, Lin D, Lu L, and Law M (2012). Comparison of next-generation sequencing systems. Journal of biomedicine & biotechnology, 2012, 251364.

Miller J, Koren S, and Sutton G (2010). Assembly algorithms for next-generation sequencing data. Genomics, 95(6), 315–327.

Ning Z, Cox A J, and Mullikin J C (2001). SSAHA: A Fast Search Method for Large DNA Databases, 1725–1729.

Ross M G, Russ C, Costello M, Hollinger A, Lennon N J, Hegarty R, Nusbaum C, and Jaffe D B (2013). Characterizing and measuring bias in sequence data. Genome biology, 14(5), R51. BioMed Central Ltd.

Salmela L (2010). Correction of sequencing errors in a mixed set of reads. Bioinformatics (Oxford, England), 26(10), 1284–90.

59 Schlebusch S, and Illing N (2012). Next generation shotgun sequencing and the challenges

of de novo genome assembly. South African Journal of Science, 108(11/12), 1–8. Shendure J, and Ji H (2008). Next-generation DNA sequencing. Nature biotechnology,

26(10), 1135–45.

Soares S C, Silva A, Trost E, Blom J, Ramos R, Carneiro A, Ali A, Santos A R, Pinto A C, Diniz C, Barbosa E G V, Dorella F a, Aburjaile F, Rocha F S, Nascimento K K F, Guimarães L C, Almeida S, Hassan S S, Bakhtiar S M, Pereira U P, Abreu V a C, Schneider M P C, Miyoshi A, Tauch A, and Azevedo V (2013). The pan-genome of the animal pathogen Corynebacterium pseudotuberculosis reveals differences in genome plasticity between the biovar ovis and equi strains. PloS one, 8(1), e53818. Taylor R (1990). Interpretation of the correlation coefficient: a basic review. Journal of

diagnostic medical sonography, 35–39.

Thompson J F, and Steinmann K E (2010). Single molecule sequencing with a HeliScope genetic analysis system. (F M Ausubel, R Brent, R E Kingston, D D Moore, J G Seidman, J A Smith, and K Struhl Eds)Current protocols in molecular biology / edited by Frederick M. Ausubel ... [et al.], Chapter 7, Unit7.10. Hoboken, NJ, USA: John Wiley & Sons, Inc.

Wirawan A, Harris R S, Liu Y, Schmidt B, and Schröder J (2014). HECTOR: a parallel multistage homopolymer spectrum based error corrector for 454 sequencing data. BMC bioinformatics, 15, 131.

Zeng F, Jiang R, and Chen T (2013). PyroHMMsnp: an SNP caller for Ion Torrent and 454 sequencing data. Nucleic acids research, 41(13), e136.

Zhang J, Chiodini R, Badr A, and Zhang G (2011). The impact of next-generation sequencing on genomics. Journal of Genetics and Genomics, 38(3), 95–109.

Documentos relacionados