• Nenhum resultado encontrado

4.1 Identificação de inícios de transcrição (TSS)

4.1.10 iTSS estruturados

Uma das explicações para a existência de inícios de transcrição internos a regiões codificantes é a presença de estruturas no mRNA que protegem os transcritos processados da degradação. No dRNA-seq, essas estruturas poderiam gerar um sinal interpretado como início de transcrição (Jäger et al., 2014). Em Thermococcus kodakarensis, por exemplo, o transcrito produzido pelo gene rpoL, que codifica uma subunidade da RNA Polimerase, apresenta um hairpin predito em sua extremidade 3’, o que gera um enriquecimento no sinal da biblioteca tratada com a enzima TEX (Jäger et al., 2014). Em nossos dados de dRNA-seq também é possível identificar uma alta concentração de inícios de transcrição em genes que produzem transcritos sabidamente estruturados, como tRNAs e rRNAs.

Para identificar os iTSSs que podem estar relacionados com a pausa da degradação pela enzima TEX devido a presença de estruturas internas no mRNA, realizamos a identificação de possíveis regiões estruturadas nas regiões codificantes. Para isso, implementamos um algoritmo para realizar o cálculo do z-score da mínima energia livre Figura 20: Curadoria de iTSS frente a anotações disponíveis para H. salinarum NRC-1. Os inícios de transcrição internos foram curados manualmente quanto a sua localização em anotações disponíveis em 7 diferentes bancos de dados. As setas pretas representam os inícios de transcrição identificados com o dRNA-seq. As linhas tracejadas vermelhas indicam iTSS que podem atuar como pTSS do gene onde estão localizados ou de genes downstream (piTSS). A linha tracejada verde representa um iTSS verdadeiro.

(MFE) da região 100 pb. e 50 pb. downstream aos iTSSs. O z-score representa o quanto determinado valor varia em relação a média de valores; nesre caso, o quanto a MFE de uma determinada sequência varia em relação a média da MFE de sequências randômicas, geradas a partir da sequência analisada (Le & Maizel, 1989) (Figura 21). Assim, se o z-score for mais positivo, a sequência nativa possui uma MFE maior do que as sequências randômicas e é classificada como possivelmente não estruturada. Por outro lado, se o z-score for mais negativo, a MFE da sequência original é menor do que a MFE das sequências permutadas e a região analisada é classificada como possivelmente estruturada.

Como a estabilidade da ligação entre dois nucleotídeos em uma estrutura sofre influência dos pareamentos vizinhos, é importante que a comparação da mínima energia livre seja realizada entre sequências com a mesma composição de dinucleotídeos. Análises com sequências randômicas de mRNAs com a mesma composição de dinucleotídeos demonstraram que estas tendem a apresentar uma MFE menor que as sequências originais, enquanto sequências randômicas geradas da mesma maneira para RNAs estruturados apresentam uma MFE maior que as sequências originais (Workman & Krogh, 1999; Clote et al, 2005). Para calcular o z-score foram geradas 10001 sequências permutadas com a mesma composição de dinucleotídeos para cada sequência analisada, através do software uShuffle (Jiang et al., 2008). A MFE das sequências nativas foi comparada com a média de MFE de 1000 sequências permutadas escolhidas aleatoriamente no conjunto de 10001 sequências, através da equação apresentada na Figura 21.

Figura 21 Equação para o cáculo do z-score. <> e σ representam a média e o desvio padrão, respectivamente, da MFE do subconjunto de 1000 sequências permutadas. E(x) representa a MFE da sequência nativa

Primeiramente realizamos o cálculo da variação de MFE para 52 RNAs estruturados de H. salinarum NRC-1 (47 tNRAs, 3 rRNAs, RNAse P e RNA 7S), os quais apresentaram valores de z-score variando entre -1,08 até -10,8 (Figura 22A). A mesma análise conduzida com a região 100 pb. dowstream aos 655 iTSS retornou valores de z-score entre -4,82 até 2,41 (Figura 22C), enquanto na análise da região 50 pb. downstream aos iTSSs esses valores variaram entre -5,14 e 2,53.

Uma vez calculado o z-score para as sequências relacionadas aos iTSS, resta saber se o valor identificado é significativamente diferente do z-score de sequências randômicas. Utilizando o mesmo conjunto de sequências permutadas geradas na análise anterior, repetimos o procedimento, dessa vez selecionando uma sequência aleatória no conjunto de sequências permutadas e calculando seu z-score frente a um subconjunto de outras 1000 sequências permutadas; tal procedimento foi repetido 10.000 vezes. Dessa forma, a fração de z-scores das sequências selecionadas aleatoriamente que são menores que o z-score da sequência nativa nos dá uma aproximação da probabilidade que um z-score ocorra randomicamente. Essa fração foi definida como valor-p do z-score (Freyhult et al., 2005). Aplicando essa metodologia aos 52 RNAs estruturados de H. salinarum NRC-1, 33 RNAs apresentaram um p-valor abaixo de 0,01 e 47 apresentaram um p-valor abaixo de 0.05 (Figura 22B). Definindo o limite de significância do p-valor em 0,05 identificamos 70 regiões possivelmente estruturadas quando analisamos a sequência de 100 pb downstream ao iTSS (Figura 22D), e 54 quando a região analisada foi de 50 pb. Algumas das regiões analisadas foram consideradas como estruturadas em ambos os casos, assim, ao final foram identificadas 101 posições com sinal de início de transcrição (15,5%) resultantes de estruturas presentes no mRNA. As demais 554 sequências nativas não apresentam z-score e p-value compatível com a formação de estrutura. Dessa forma, embora parte dos iTSS possa ter sido gerada através de estruturas internas ao mRNA que impedem sua degradação pela enzima TEX, a análise das

regiões estruturadas demonstra que a grande maioria dos iTSS analisados (554) representam inícios de transcrição genuínos e estão envolvidos com a produção de transcritos. As análises posteriores foram conduzidas nesse subconjunto de iTSS.

Figura 22: Cálculo do z-score da mínima energia livre (MFE) dos iTSSs. A) Distribuição dos z-scores de RNA estruturais de H. salinarum e C) da região 100 pb. downstream aos iTSSs. B) Adotando um limite de p-valor de 0,05 apenas 4 tRNAs e a RNAse P são classificados como não estruturados (pontos pretos). D) Esse mesmo limite aplicado as regiões downstream dos iTSS classifica 70 deles como estruturados (pontos vermelhos).