RNA-Seq:
Análise de transcriptomas
Lívia de Moraes Bomediano
Sumário
- Introdução
- Experimento de RNA-seq
- Análise de qualidade dos dados
- Mapeamento dos reads
- Montagem do genoma
- Cobertura x custo
- Genes diferencialmente expressos
- Volcano plot e HeatMaps
- RNA-seq x Microarray
Introdução
• RNA-seq é uma abordagem recentemente
desenvolvida, para analisar o perfil de
transcriptoma, que utiliza tecnologias de
deep-sequencing -> grande cobertura.
• O transcriptoma é o conjunto completo de
transcritos (RNAs) em uma célula e sua
quantidade,
para
um
estágio
de
desenvolvimento específico ou condição
fisiológica.
• O entendimento do transcriptoma é essencial para:
– Interpretar os elementos funcionais do genoma;
– Revelar os constituintes moleculares de células e tecidos nos diferentes estágios de desenvolvimento;
– Compreender os elementos presentes no desenvolvimento de doenças.
• O transcriptoma pretende catalogar todos os tipos de transcritos:
– mRNAs
– RNAs não codificadores (RNA ribossomal e transportador) -> qual será o problema aqui? – pequenos RNAs.
• Porquê estudar o transcriptoma?
- Para determinar a estrutura transcripcional dos genes, em termos de seus sítios de início 5’ e final 3’; - Padrões de splicing e outras modificações
pós-traducionais;
- Quantificar os níveis de mudanças de expressão de cada transcrito durante o desenvolvimento e sob condições diferentes;
- Encontrar microRNAs que possuem função reguladora;
- Metagenômica.
Experimento de RNA-Seq
• Preparo da parte experimental:
- pergunta bem definida;
- experimento de condição fisiológica;
- grupo controle;
- extração de RNA total;
- depleção de RNA ribossomal (Por que?)
-> meu experimento teve um problema aqui e
agora tenho um problema maior na análise
• Preparo das bibliotecas de cDNA:
Pode-se utilizar:
- Todo o RNA da célula (Possui 90-95% de rRNA) - Apenas mRNA selecionado pela cauda de poli-A
- Retirando o rRNA:
A remoção de rRNAs aumenta a detecção e a montagem de transcritos raros.
Mas se o objetivo do estudo é a quantificação, é necessário uma biblioteca não depletada.
• Para a criação da biblioteca o RNA é transformado em cDNA por uma transcriptase reversa;
• Para não se perder a direcionalidade do transcrito podem ser acrescentados adaptadores a uma extremidade do RNA:
- isso é muito importante no estudo de espécies de genoma muito compactado onde o transcrito pode se sobrepor em fitas opostas;
• O RNA pode ser fragmentado antes da formação de cDNA evitando a formação de estrutura secundária.
Experimento de RNA-Seq
Cada molécula de cDNA, com ou sem amplificação, é então sequenciada com um método de alto rendimento para obter sequências curtas de um final (sequenciamento single-end) ou de ambos os lados
1º passo: análise de qualidade
• Quais informações precisamos checar?
- Informações básicas (quantidade total de
reads, tamanho da sequência);
- qualidade por base;
- sequências representadas mais de uma vez;
- conteúdo CG;
- nível de duplicação;
• Quais informações precisamos checar?
- Porcentagem dos reads que mapearam de
forma específica e única;
- Dentro do reads mapeados, quais mapearam
para regiões de íntrons, éxons e regiões
intergênicas;
-
posição de ter i ais 5’ e 3’;
- porcentagem de genes expressos.
• Baseado em três estratégias:
- Estratégia baseada em genoma de referência;
- Estratégia de novo;
- Estratégia combinada.
• Estratégia baseada em Referência:
Quando existe um genoma de referência o transcriptoma pode ser construído a partir dele.
- Esse método inclui três passos:
– Alinhamento das leituras sobre o genoma de referência
– As leituras sobrepostas em cada locus são agrupadas para construir um gráfico de todas as isoformas possíveis.
– O gráfico é analisado para resolver isoformas individuais.
Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP
• Vantagens desse método (com referência):
- Pode montar transcritos de baixa abundância; - Pode usar computação paralela;
- Pode ser feita em máquinas com poucos gb de RAM; - Descobrir novos transcritos que não estão em
anotações já existentes;
- Descarta artefatos e contaminantes (que não alinham) - Usado para transcriptomas simples:
– bactérias, archeaeal, eucarióticos simples – com poucos introns
– pouco splicing alternativo
• Desvantagens deste método (com referência): - Não é possível sem um genoma de referência; - Depende da qualidade do genoma de referência ; - Genomas podem não ser completos, ter regiões
não agrupadas e parcialmente montadas;
- Genes que se encontram muito próximos ou sobrepostos podem ser interpretados com um único transcrito;
- Não une leituras que esteja muito distantes no genoma ou em cromossomos diferentes.
• Estratégia baseada de novo:
- Não utiliza um genoma de referência;
- Se utiliza da redundância das leituras para encontrar sobreposições entre as leituras;
- Programas usam o gráfico De Brujin para reconstruir transcritos de uma ampla faixa de níveis de expressão e então processar a montagem de contigs e remover redundancias;
- Semelhante à montagem de genoma.
• Vantagens desse método (de novo):
- Não depende de um genoma de referência;
- Pode providenciar um novo conjunto de dados de transcritos para genomas que não apresentam alta qualidade;
- Pode ser usado para encontrar transcritos exógenos ou que estão faltando no genoma;
- Não é influenciado por longos íntrons;
- Encontra transcritos trans-spliced, resultantes de rearranjos cromossomais;
- Pode ser utilizado para o transcriptoma de organismos
• Desvantagens desse método (de novo):
- A montagem de organismos eucariotos complexos pode consumir muita memória RAM:
– Grande quantidade de dados;
– Complexidade dos gráficos de Brujin necessários para analisar os possíveis splicings;
– Consome dias ou semanas de processamento. - Exige maior cobertura(30x);
- Suscetível a erros de leitura, pode não diferenciar um erro do sequenciamento de um splicing;
- Trechos similares(como parálogos) ainda podem ser considerados um só transcrito.
• Estratégia combinada:
A combinação dos dois métodos pode ser utilizada: – O alinhamento tem a vantagem da sensibilidade;
– O De Novo para encontrar transcritos novos e
trans-spliced.
Realizando o alinhamento primeiro podemos descartar as sequências já conhecidas:
– Fazendo a montagem De Novo com uma quantidade muito menor de dados.
Quando o genoma de referência tem baixa qualidade a montagem De Novo pode ser feita primeiro:
– Os contigs e singlets são alinhados no genoma e as lacunas podem ser preenchidas com informações do genoma.
- Uma questão importante é a cobertura da sequência ou a porcentagem dos transcritos pesquisados, os quais implicam no custo.
- Grandes coberturas -> mais sequenciamento.
- Em transcriptomas simples, como da levedura S.
cerevisiae que não tem evidência de splicing
alternativo, 30 milhões de leituras de 35 nucleotídeos são suficientes para observar a transcrição de mais de 90% dos genes de células em crescimento sob uma condição unica.
• Count-based methods (R packages):
1.DESeq -- based on negative binomial
distribution
2.edgeR -- use an overdispersed Poisson model
3.baySeq -- use an empirical Bayes approach
4.TSPM -- use a two-stage poisson model
- Bioconductor
Livro: RNA-seq Data Analysis: A Practical
Approach. Eija Korpelainen, 2011.
(fale comigo!)