• Nenhum resultado encontrado

OCA2 HERC

5.4. Processamento de análise dos dados

O fluxograma de análises no NGS (do inglês, Next-generation Sequencing) pode ser sumarizado em duas etapas principais: a primeira etapa de análise, que consiste na geração dos dados no formato fastq, aplicação de filtros de qualidade e o alinhamento a um genoma de referência. A segunda etapa compreende o processo de determinação das variantes através de comparação a um genoma de referência. Com os pontos de variação gerados e já mensurados quanto a qualidade, análises subsequentes podem ser realizadas (anotação de variantes e análises de associação).

Os procedimentos realizados no processamento e análise dos dados estão detalhadamente descritos no Anexo C. Aqui será apresentada uma breve descrição destes passos.

5.4.1. Primeira etapa de análises

5.4.1.1. Obtenção dos dados brutos e controle de qualidade (Anexo C - Item 1) A primeira etapa de análise, os arquivos brutos que são gerados pelo sequenciador são transformados em um formato fastq onde é atribuída uma pontuação de qualidade (phred-score) (Ewing e Green, 1998). Os dados são então disponibilizados para download no site da Illumina, em um ambiente denominado BaseSpace (Illumina, Inc).

A partir dos arquivos fastq de cada uma das amostras sequenciadas, é realizada uma série de processos que consistem na avaliação da qualidade antes da trimagem e alinhamento dos fragmentos sequenciados a um genoma de referência. Os softwares fastqC (Andrews, 2010) e SAMstat (Lassmann et al., 2011) foram utilizados para avaliar a qualidade das reads. Com os relatórios gerados por estes dois programas, estratégias podem ser definidas para melhorar a qualidade dos dados caso estes não estejam satisfatórios.

5.4.1.2. Trimagem e alinhamento das sequências

Sequências de adaptadores, bem como bases diagnosticadas com baixo phred-score pelo fastqC devem ser retiradas das extremidades das reads, em um processo referido como trimagem. A partir do que pôde ser observado no relatório gerado pelo fastqC, a trimagem foi

Material e Métodos 46

realizada buscando pela sequência dos adaptadores paired-end utilizados no sequenciamento, com o uso do cutadapt (Martin, 2011).

Após processamento das reads, estas foram mapeadas contra um genoma de referência utilizando o algoritmo BWA-MEM (Li et al., 2009), em função da sua especificidade em lidar com sequências de tamanho entre 70 e 1 Mb, além de rapidez e acurácia. O genoma de referência utilizado foi o Homo sapiens, UCSC, hg19, disponibilizado pela Illumina (Illumina, Inc). Ao final do processo de alinhamento de cada amostra, um arquivo no formato SAM (Sequencing Alignment/Map) é gerado e posteriormente transformado em arquivo BAM (Binary Alignment/Map), ordenado e indexado, com o emprego do programa SAMtools (Li et al., 2008, Li et al., 2009).

Uma vez ordenados e indexados, os arquivos BAM podem ser visualizados por programas como o IGV (do inglês, Integrative Genomics Viewer) (uma ferramenta de visualização e exploração interativa de conjuntos de dados genômicos) (Robinson et al., 2011; Thorvaldsdóttir et al., 2013).

Os resultados derivados do processamento dos dados brutos, descrevendo a distribuição da qualidade média das bases que compõem as reads pré- e pós-trimagem dos adaptadores paired-end da Illumina e a qualidade de mapeamento ao genoma de referência, podem ser visualizados no Anexo D.

5.4.2. Segunda etapa de análises

5.4.2.1. Determinação de variantes: HaplotypeCaller (Anexo C - Item 1.3)

Na segunda fase de análises acontece a etapa de determinação de variantes que termina com a geração de um arquivo: o VCF (do inglês, Variant Calling Format). O VCF é um formato de arquivo de texto padronizado para representar SNPs, InDels, STRs e variações estruturais encontradas em posições específicas em relação a um genoma de referência. O arquivo VCF consiste no resultado da análise realizada pelo programa GATK v.3.5 (do inglês, Genome Analysis Toolkit) (DePristo et al., 2011; McKenna et al., 2010; Van der Auwera et al., 2013).

Para realizar a determinação de SNPs e InDels foi utilizada a ferramenta HaplotypeCaller (HC) do GATK com o parâmetro --emiteRefConfidence GVCF. O HC considera simultaneamente todas as amostras a serem analisadas e, ao encontrar uma região apresentando sinais de variação (região ativa), o programa descarta o mapeamento preexistente e realiza uma remontagem das reads naquela região. O programa realinha então cada haplótipo contra o haplótipo de referência com o objetivo de identificar potenciais sítios de variação. Desta forma, possibilita a nomeação de SNPs e InDels de forma simultânea, sendo mais preciso quando lidando com regiões reconhecidamente

Material e Métodos 47

problemáticas, como por exemplo, onde são encontrados diferentes tipos de variações próximas umas das outras.

Os parâmetros --dontUseSoftClippedBases e -drf Duplicateread foram adicionados a linha de comando default, pois o primeiro direciona o programa a não analisar bases soft- clipped (bases não alinhadas nas extremidades das reads), o que diminui a determinação de falso-positivos, enquanto que o segundo é necessário devido às características do ensaio HaloPlex, onde a vasta maioria dos fragmentos em uma determinada região possuem exatamente mesmo tamanho.

5.4.2.2. Avaliação e remoção de genótipos de baixa qualidade: VCFx (Anexo C - Item 1.3.2)

Visando reduzir ainda mais a taxa de falso-positivos, o arquivo VCF gerado pelo HC foi submetido à rotina do script VCFx (ferramenta escrita em linguagem C++) (Castelli et al., 2015), que interroga os genótipos com base na proporção de reads que foi utilizado pelo método HC para determinação de variantes. As regras que o programa VCFx utiliza para a interrogação dos genótipos estão descritas no Anexo C.

É importante realizar esta avaliação uma vez que alguns dos genótipos considerados pelo HC podem não ser verdadeiros, principalmente quando a genotipagem se refere a um segmento com baixa cobertura de sequenciamento ou quando, no caso de genótipos heterozigotos, um dos alelos é pouco representado.

A definição de todos os genótipos interrogados, seja como homozigoto ou heterozigoto, foi realizada avaliando visualmente a proporção e qualidade das reads, bem como a qualidade da chamada das bases em cada read. Quando não foi possível definir o alelo, este foi dado como um alelo missing.

5.4.2.3. Anotação de variantes

Após gerar o arquivo .vcf com as informações sobre as variantes encontradas, o processo de anotação e interpretação funcional destas variantes torna-se de extrema importância, uma vez que existem bancos de dados com informações sobre mutações que podem estar associadas a diferentes doenças ou até mesmo a variação fenotípica normal. A forma mais comum de anotação é baseada em vários bancos de dados públicos de variações, como por exemplo o dbSNP. Em termos de predição funcional de variantes, as ferramentas empregam diferentes abordagens que vão desde a análise de uma sequência simples (pequena) até uma região completa de um gene, gerando assim, informações sobre o impacto destas variantes na formação de proteínas (Kassahn et al., 2014; Pabinger et al., 2014).

Material e Métodos 48

Para esta finalidade foi empregado o uso do web-server SNPnexus, considerado uma ferramenta de anotação funcional robusta para avaliar o potencial significado de variantes candidatas detectadas por sequenciamento e apontar as isoformas de genes/proteínas que podem ser fenotipicamente importantes (Chelala et al., 2009; Dayem Ullah et al., 2012; Dayem Ullah et al., 2013). Ao acessar o website http://snp-nexus.org, pode-se escolher entre diferentes anotações. Os parâmetros de anotação utilizados para gerar o relatório do SNPnexus deste trabalho foram:

Regiões genômicas: RefSeq; Ensembl; UCSC

Efeitos de SNPs não sinônimos na função proteica: SIFT (Kumar et al., 2009); PolyPhen (Adzhubei et al., 2013)

Elementos regulatórios: Sítios de ligação de fatores de transcrição; miRBASE (KozomaraeGriffiths-Jones, 2014); ENCODE (ENCODE, 2012); Roadmap Epigenomics Consortium (Kundaje et al., 2015).

Conservação: PHAST (Hubisz et al., 2011); GERP++ (Davydov et al., 2010).

Associação com diferentes fenótipos: GAD (Becker et al., 2004); ClinVar (Landrum et al., 2014); COSMIC (Forbes et al., 2008); NHGRI (MacArthur et al., 2017)

Polimorfismos não codificantes: CADD (Kircher et al., 2014); fitCons (Gulko et al., 2015); EIGEN (Ionita-Laza et al., 2016); FATHMM (Shihab et al., 2013)

De modo a complementar as informações geradas pelo relatório do SNPnexus, foram também utilizados o HaploReg (para confirmar as informações obtidas pelo SNPnexus) (Ward e Kellis, 2016) e o UCSC Genome Browser (Casper et al., 2018).