• Nenhum resultado encontrado

5 MATERIAL E MÉTODOS 5.1 Material vegetal

5.5 Análise transcriptômica (RNA-seq)

5.5.1 Extração e análise do RNA total

A extração de RNA total da polpa de frutos, folhas e flores de aceroleira foi feita utilizando o "kit" "RNeasy Plant Mini Kit" (Qiagen, Hilden, Alemanha), de acordo com as recomendações do fabricante. Para remover possível contaminação por DNA genômico,

adicionou-se à coluna DNase fornecida pelo Kit RNAAse Free DNase Set (Qiagen, Hilden, Alemanha), como um passo adicional de digestão, durante a etapa de purificação.

Em seguida, a concentração do RNA total foi estimada por espectrofotometria usando Nanodrop 2000 (Thermo Scientific, Waltham, EUA) no comprimento de onda de 260 ηm. A pureza do RNA extraído foi aferida a partir da razão 260/280 ηm de absorbância, utilizada para identificar contaminações por proteínas (valores ideais entre 1,8 a 2), e através da razão 260/230 ηm, utilizada para verificar contaminações por polissacarídeos (valor ideal > 2). A integridade das bandas foi verificada por eletroforese em gel de agarose 1,5% e revelado com uma solução de brometo de etídeo em transiluminador na região ultravioleta. O RNA total extraído foi armazenado em freezer -80 oC. Posteriormente, a quantidade e a qualidade do RNA para sequenciamento foi também confirmada através do Bioanalizer 2100 (Agilent, Santa Clara, CA, EUA), que avalia o número de integridade do RNA (RIN). Os valores de RIN variam de 1 a 10 e foram calculados a partir da razão 28S:18S das subunidades do RNA ribossômico. Valores de RIN superiores a 7 são sugeridos, pois indicam alta integridade do RNA total.

5.5.2 Construção das bibliotecas de cDNA e sequenciamento

Nove bibliotecas de cDNA, representativas de polpas de frutos aos 12 (verde), 16 (intermediário), 20 (maduro) DAA e folhas jovens em duplicatas biológicas, bem como uma única biblioteca de flores foram preparadas e sequenciadas pela equipe da empresa Macrogen (Humanizing Genomics, Seoul, Coreia do Sul) usando o Illumina TruSeq RNA Sample

Preparation Kit v2, de acordo com as instruções do fabricante. Inicialmente, o RNA

mensageiro (mRNA) foi selecionado pela cauda poli (A) a partir de 1 µg de RNA total, utilizando-se esferas magnetizadas recobertas por Oligos Poli(T). Em seguida, o mRNA obtido foi fragmentado na presença de tampão de fragmentação 5X (contendo cátions divalentes), sendo a mistura submetida à 94 oC por 5 min.

Logo após, os fragmentos de mRNA foram utilizados como moldes para a síntese da fita complementar de cDNA usando iniciadores randômicos, actinomicina D e o kit da

ImProm-IITM Transcriptase Reversa (Promega, EUA). A segunda fita de cDNA foi sintetizada

utilizando as enzimas DNA polimerase I e RNase H. Em seguida, as enzimas T4 DNA polimerase e Klenow DNA polimerase foram utilizadas para obtenção de extremidades abruptas nesse cDNA. Uma adenina (A) foi adicionada à extremidade 3’ dessas moléculas utilizando a enzima Klenow exonuclease. Posteriormente, foram ligados adaptadores

presentes no kit Illumina TruSeq RNA Sample Preparation v2 para amplificação e sequenciamento do cDNA. Fragmentos de 280 a 300 pb correspondentes ao cDNA ligado aos adaptadores foram separados dos adaptadores não ligados por eletroforese em gel de agarose 2%.

Finalmente, as bibliotecas foram enriquecidas através de 15 ciclos de PCR de ponte em fase sólida utilizando-se iniciadores complementares às sequências dos adaptadores. A concentração e a qualidade das bibliotecas de cDNA foram verificadas utilizando o

Bioanalyzer 2100 equipado com um chip específico para DNA. Por fim, as bibliotecas

enriquecidas foram reunidas em concentração equimolar para sequenciamento de fragmentos de 100 pb no modo “ambas as extremidades” (do inglês, paired-end) utilizando o kit Truseq

SBS v4 e a plataforma de sequenciamento Illumina modelo HiSeq 2500 (Illumina, San Diego,

CA, EUA). O presente projeto de sequenciamento foi depositado no banco de dados SRA (do inglês, Sequence Reads Archive) do NCBI (https://www.ncbi.nlm.nih.gov/sra), sob o número de acesso PRJNA473364.

5.5.3 Processamento das reads brutas e montagem de novo

As sequências de 100 pb provenientes do sequenciamento são chamadas de leituras ou

reads. Para remover as sequências de adaptadores ligados as leituras sequenciadas, bem como

as bases de baixa qualidade (Q < 25 e leituras de comprimento < 90 pb) usou-se o programa Trimmomatic v.0.32 (BOLGER et al., 2014). A qualidade das leituras resultantes foi confirmada através da análise feita com a ferramenta FastQC (ANDREWS, 2010).

Em virtude da ausência de um genoma de referência para a aceroleira (M. emarginata) conduziu-se a montagem de novo das leituras em contigs usando parâmetros padrão do programa Trinity v.2.4.0 (GRABHERR et al., 2011). Foi feita a montagem do transcriptoma de frutos em cada estádio de desenvolvimento, separados e juntos, bem como de folhas jovens e flores separados. Para gerar um transcriptoma com número de identificação comum e aumentar a probabilidade de obter a sequência completa dos transcritos referentes a cada gene expresso foi feita a montagem do transcriptoma utilizando todas as nove bibliotecas, o qual foi denominado de transcriptoma de referência.

Em seguida, o transcriptoma de referência foi submetido à ferramenta CD-HIT-est (LI; GODZIK, 2006) para remover as sequências de transcritos redundantes apresentando identidade > 90%. Posteriormente, as leituras selecionadas previamente com a qualidade requerida foram mapeadas para o transcriptoma de referência não redundante para estimar a

abundância de transcritos e isoformas usando os parâmetros padrão dos programas Bowtie (LANGMEAD et al., 2009) e RSEM versão 1.2.0 (LI; DEWEY, 2011).

O Bowtie é um alinhador de sequências pequenas (< 200 pb) utilizado neste estudo para mapear as leituras ao transcriptoma de referência na ausência de mismatches e gaps entre as leituras e sua referência. Em seguida, o RSEM utilizou-se do resultado do alinhamento gerado pelo Bowtie para estimar a abundância dos transcritos (número de leituras que mapeou para cada transcrito, em particular).

5.5.4 Anotação dos transcritos

O transcriptoma de referência foi anotado usando os bancos de dados públicos de proteínas: non-redundant-NCBI (PRUITT et al., 2005), Swiss-Prot (BAIROCH; BOECKMANN, 1993) e Kyoto Encyclopedia of Genes and Genomes – KEGG (KANEHISA; GOTO, 2000; MORIYA et al., 2007) através da ferramenta BLASTx e usando um E-value ≤ 10–5 (ALTSCHUL et al., 1997). Transcritos comuns e exclusivamente anotados com cada banco de dados foi sumarizado por meio de um diagrama de Venn gerado através da ferramenta online VENNY 2.1 (http://bioinfogp.cnb.csic.es/tools/venny/). Após anotação, as isoformas redundantes representativas do mesmo gene foram removidas manualmente para gerar um dataset com a anotação de apenas transcritos únicos. Transcritos anotados com o banco Nr-NCBI e denominados de hipotéticos, não caracterizados ou não nomeados foram re- anotados com base nos proteomas deduzidos a partir dos genomas de Hevea brasiliensis,

Jatropha curcas, Ricinus comunis, Manihot esculenta, Populus euphratica disponíveis no GenBank (https://www.ncbi.nlm.nih.gov/), bem como da Arabidopsis thaliana disponível no

TAIR 10 (https://www.arabidopsis.org).

5.5.5 Identificação dos transcritos diferencialmente expressos (TDEs)

Inicialmente, a contagem do número de fragmentos por transcrito foi normalizada de acordo com o tamanho da biblioteca utilizando o método de normalização contagem por milhão (cpm) presente na cpm function do pacote EdgeR (ROBINSON et al., 2010). Apenas transcritos com cpm ≥ 2 em pelo menos duas amostras foram selecionados para análise de expressão.

Para verificar a identidade e adequação de cada biblioteca para análise de expressão diferencial, previamente foi conduzida uma análise de componentes principais (ACP) baseado no arquivo de contagem gerado após a normalização e a filtragem (cpm ≥ 2). A ACP e a

inferência dos transcritos diferencialmente expressos (TDEs) foram obtidas com o pacote

DESeq2 (LOVE et al., 2014). Foram filtrados e considerados como TDEs, apenas transcritos

com taxa de falsa descoberta (FDR < 0,05) e apresentando log2 fold-change (≤ -1 ou ≥ 1).

Foram estabelecidas as seguintes comparações: frutos intermediários (16 DAA) vs. verdes (12 DAA), frutos maduros (20 DAA) vs. verdes (12 DAA), frutos maduros vs. intermediários (16 DAA), frutos verdes vs. folhas e frutos verdes vs. flores. O Pacote Venn Diagram (CHEN; BOUTROS, 2011) foi usado para sumarizar os TDEs comuns e exclusivos entre as comparações estabelecidas durante o amadurecimento dos frutos.

5.5.6 Anotação funcional dos transcritos diferencialmente expressos (TDEs)

O arquivo de anotação dos transcritos únicos gerado para o transcriptoma de referência foi utilizado como base para anotação dos TDEs. Para os TDEs ainda não identificados foram feitas buscas no NCBI através dos seguintes bancos de transcritos: Expressed Sequence Tags (ESTs), Transcriptome Shotgun Assembly (TSA) e Reference RNA sequence (Refseq-RNA). Além disso, os TDEs inferidos foram categorizados de acordo com a seguinte Ontologia Gênica (OG): componente celular (CC), processo biológico (BP) e função molecular (FM) com o auxílio do website agriGO v2.0, selecionando a opção Singular Enrichment Analysis (SEA) (TIAN et al., 2017).

O banco de dados KEGG também foi usado para atribuir os TDEs às suas respectivas vias metabólicas usando o anotador automático do servidor KAAS (KEGG Automatic

Annotation Server) e o método bi-directional best hit (http://www.genome.jp/tools/kAAs/). O

KAAS forneceu a anotação através do identificador automático, o KEGG Orthology (KO), além da identificação e das respectivas localizações dos produtos codificados pelos TDEs nas vias metabólicas redirecionadas durante o amadurecimento dos frutos (MORIYA et al., 2007).