aula rnaseq LMB

(1)

RNA-Seq:

Análise de transcriptomas

Lívia de Moraes Bomediano

(2)

Sumário

- Introdução

- Experimento de RNA-seq

- Análise de qualidade dos dados

- Mapeamento dos reads

- Montagem do genoma

- Cobertura x custo

- Genes diferencialmente expressos

- Volcano plot e HeatMaps

- RNA-seq x Microarray

(3)

Introdução

• RNA-seq é uma abordagem recentemente

desenvolvida, para analisar o perfil de

transcriptoma, que utiliza tecnologias de

deep-sequencing -> grande cobertura.

• O transcriptoma é o conjunto completo de

transcritos (RNAs) em uma célula e sua

quantidade,

para

um

estágio

de

desenvolvimento específico ou condição

fisiológica.

(4)

(5)

• O entendimento do transcriptoma é essencial para:

– Interpretar os elementos funcionais do genoma;

– Revelar os constituintes moleculares de células e tecidos nos diferentes estágios de desenvolvimento;

– Compreender os elementos presentes no desenvolvimento de doenças.

• O transcriptoma pretende catalogar todos os tipos de transcritos:

– mRNAs

– RNAs não codificadores (RNA ribossomal e transportador) -> qual será o problema aqui? – pequenos RNAs.

(6)

(7)

(8)

• Porquê estudar o transcriptoma?

- Para determinar a estrutura transcripcional dos genes, em termos de seus sítios de início 5’ e final 3’; - Padrões de splicing e outras modificações

pós-traducionais;

- Quantificar os níveis de mudanças de expressão de cada transcrito durante o desenvolvimento e sob condições diferentes;

- Encontrar microRNAs que possuem função reguladora;

- Metagenômica.

(9)

Experimento de RNA-Seq

• Preparo da parte experimental:

- pergunta bem definida;

- experimento de condição fisiológica;

- grupo controle;

- extração de RNA total;

- depleção de RNA ribossomal (Por que?)

-> meu experimento teve um problema aqui e

agora tenho um problema maior na análise

(10)

(11)

• Preparo das bibliotecas de cDNA:

Pode-se utilizar:

- Todo o RNA da célula (Possui 90-95% de rRNA) - Apenas mRNA selecionado pela cauda de poli-A

- Retirando o rRNA:

A remoção de rRNAs aumenta a detecção e a montagem de transcritos raros.

Mas se o objetivo do estudo é a quantificação, é necessário uma biblioteca não depletada.

(12)

• Para a criação da biblioteca o RNA é transformado em cDNA por uma transcriptase reversa;

• Para não se perder a direcionalidade do transcrito podem ser acrescentados adaptadores a uma extremidade do RNA:

- isso é muito importante no estudo de espécies de genoma muito compactado onde o transcrito pode se sobrepor em fitas opostas;

• O RNA pode ser fragmentado antes da formação de cDNA evitando a formação de estrutura secundária.

(13)

Experimento de RNA-Seq

Cada molécula de cDNA, com ou sem amplificação, é então sequenciada com um método de alto rendimento para obter sequências curtas de um final (sequenciamento single-end) ou de ambos os lados

(14)

(15)

(16)

1º passo: análise de qualidade

• Quais informações precisamos checar?

- Informações básicas (quantidade total de

reads, tamanho da sequência);

- qualidade por base;

- sequências representadas mais de uma vez;

- conteúdo CG;

- nível de duplicação;

(17)

(18)

(19)

(20)

(21)

• Quais informações precisamos checar?

- Porcentagem dos reads que mapearam de

forma específica e única;

- Dentro do reads mapeados, quais mapearam

para regiões de íntrons, éxons e regiões

intergênicas;

-

posição de ter i ais 5’ e 3’;

- porcentagem de genes expressos.

(22)

• Baseado em três estratégias:

- Estratégia baseada em genoma de referência;

- Estratégia de novo;

- Estratégia combinada.

(23)

• Estratégia baseada em Referência:

Quando existe um genoma de referência o transcriptoma pode ser construído a partir dele.

- Esse método inclui três passos:

– Alinhamento das leituras sobre o genoma de referência

– As leituras sobrepostas em cada locus são agrupadas para construir um gráfico de todas as isoformas possíveis.

– O gráfico é analisado para resolver isoformas individuais.

Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP

(24)

(25)

• Vantagens desse método (com referência):

- Pode montar transcritos de baixa abundância; - Pode usar computação paralela;

- Pode ser feita em máquinas com poucos gb de RAM; - Descobrir novos transcritos que não estão em

anotações já existentes;

- Descarta artefatos e contaminantes (que não alinham) - Usado para transcriptomas simples:

– bactérias, archeaeal, eucarióticos simples – com poucos introns

– pouco splicing alternativo

(26)

• Desvantagens deste método (com referência): - Não é possível sem um genoma de referência; - Depende da qualidade do genoma de referência ; - Genomas podem não ser completos, ter regiões

não agrupadas e parcialmente montadas;

- Genes que se encontram muito próximos ou sobrepostos podem ser interpretados com um único transcrito;

- Não une leituras que esteja muito distantes no genoma ou em cromossomos diferentes.

(27)

• Estratégia baseada de novo:

- Não utiliza um genoma de referência;

- Se utiliza da redundância das leituras para encontrar sobreposições entre as leituras;

- Programas usam o gráfico De Brujin para reconstruir transcritos de uma ampla faixa de níveis de expressão e então processar a montagem de contigs e remover redundancias;

- Semelhante à montagem de genoma.

(28)

(29)

• Vantagens desse método (de novo):

- Não depende de um genoma de referência;

- Pode providenciar um novo conjunto de dados de transcritos para genomas que não apresentam alta qualidade;

- Pode ser usado para encontrar transcritos exógenos ou que estão faltando no genoma;

- Não é influenciado por longos íntrons;

- Encontra transcritos trans-spliced, resultantes de rearranjos cromossomais;

- Pode ser utilizado para o transcriptoma de organismos

(30)

• Desvantagens desse método (de novo):

- A montagem de organismos eucariotos complexos pode consumir muita memória RAM:

– Grande quantidade de dados;

– Complexidade dos gráficos de Brujin necessários para analisar os possíveis splicings;

– Consome dias ou semanas de processamento. - Exige maior cobertura(30x);

- Suscetível a erros de leitura, pode não diferenciar um erro do sequenciamento de um splicing;

- Trechos similares(como parálogos) ainda podem ser considerados um só transcrito.

(31)

• Estratégia combinada:

A combinação dos dois métodos pode ser utilizada: – O alinhamento tem a vantagem da sensibilidade;

– O De Novo para encontrar transcritos novos e

trans-spliced.

Realizando o alinhamento primeiro podemos descartar as sequências já conhecidas:

– Fazendo a montagem De Novo com uma quantidade muito menor de dados.

Quando o genoma de referência tem baixa qualidade a montagem De Novo pode ser feita primeiro:

– Os contigs e singlets são alinhados no genoma e as lacunas podem ser preenchidas com informações do genoma.

(32)

(33)

- Uma questão importante é a cobertura da sequência ou a porcentagem dos transcritos pesquisados, os quais implicam no custo.

- Grandes coberturas -> mais sequenciamento.

- Em transcriptomas simples, como da levedura S.

cerevisiae que não tem evidência de splicing

alternativo, 30 milhões de leituras de 35 nucleotídeos são suficientes para observar a transcrição de mais de 90% dos genes de células em crescimento sob uma condição unica.

(34)

• Count-based methods (R packages):

1.DESeq -- based on negative binomial

distribution

2.edgeR -- use an overdispersed Poisson model

3.baySeq -- use an empirical Bayes approach

4.TSPM -- use a two-stage poisson model

- Bioconductor

(35)

(36)

(37)

(38)

(39)

Livro: RNA-seq Data Analysis: A Practical

Approach. Eija Korpelainen, 2011.

(fale comigo!)