• Nenhum resultado encontrado

4.1 Identificação de inícios de transcrição (TSS)

4.1.8 TSS órfãos (oTSS)

Além dos aTSSs, outra classe de inícios de transcrição que pode ser responsável pela produção de pequenos RNAs regulatórios são os oTSS, inícios de transcrição presentes em regiões intergênicas e classificados como órfãos. Além de ncRNAs, esses TSSs podem estar relacionados com o início de transcrição de genes codificantes não anotados, como as pequenas ORFs, sequências codificadoras de proteínas menores de 100 aa que usualmente são Figura 17: Expressão de 684 asRNAs e dos genes na fita sense ao longo da curva de crescimento. Os triângulos indicam o crescimento do organismo.

desconsideradas em processos de anotação (Su et al., 2013). Com a anotação automatizada de inícios de transcrição, foram identificados 732 inícios de transcritos órfãos durante o crescimento de H. salinarum NRC-1 (Anexo A; Figura 10)

Recentemente o genoma de procariotos hospedados no banco de dados RefSeq (NCBI – www.ncbi.nlm.nih.gov/refseq/) passou por um processo de reanotação visando eliminar redundâncias e estabelecer uma padronização no processo de anotação de genomas (O’Leary et al., 2016). A linhagem NRC-1 de H. salinarum foi reanotada tomando por base as informações disponíveis para o genoma da linhagem R1, o que acarretou a exclusão de diversos genes. Comparando os TSSS identificados de acordo com anotação mais de recente com a anotação previamente disponível, identificamos 159 oTSS localizados na região 250pb upstream de genes removidos na anotação atual de H. salinarum NRC-1. Esses oTSS representam 73 genes descontinuados, indicando que essas regiões são genes autênticos, responsáveis pela produção de transcritos codificadores (Anexo C). Além disso, 377 oTSS estão localizados downstream e na fita oposta a regiões gênicas, antisense a possíveis regiões 3’ UTRs (Anexo D). Essas regiões são conhecidos alvos para interação com pequenos RNAs responsáveis pela regulação pós-transcricional dos mRNA alvos (Babski et al., 2014), dessa forma, esses oTSS podem representar o início de transcrição de RNAs não codificantes com importância regulatória.

Desconsiderando os oTSSs upstream a genes removidos da anotação atual de H. salinarum e também aqueles localizados antisense a regiões 3’ UTRs, temos um total de 196 inícios de transcrição intergênicos que não estão relacionados a qualquer outra anotação (Anexo E). Para investigar o perfil de expressão dos transcritos gerados a partir dos oTSSs, realizamos o cálculo de expressão em diferentes condições de crescimento, de forma similar a que foi realizada para os aTSSs. Todos os transcritos gerados a partir dos oTSSs que apresentaram uma variação de expressão de no mínimo duas vezes, em pelo menos 1/3 dos

pontos analisados em cada condição, foram definidos como diferencialmente expressos. De acordo com esses critérios foram identificados 132 RNAs diferencialmente expressos em pelo menos uma das condições analisadas, o que corresponde a 67,3% dos oTSS analisados (Anexo E). Essa informação corrobora a hipótese de que esses oTSSs devem dar origem a transcritos com importância funcional.

Analisando variações no perfil de transcrição ao longo da curva de crescimento de H. salinarum NRC-1, Koide et al 2009 identificaram 61 RNAs diferencialmente expressos, sem uma região codificante definida e que não apresentam correspondência com os dados disponíveis de proteômica, sendo, dessa forma, classificados como ncRNAs. Os dados de dRNAseq permitiram identificar o início de transcrição para 29 desses transcritos: 17 destes são precedidos por oTSSs, 4 estão relacionados a aTSSs, 2 a iTSSs e 6 a pTSSs (Anexo F). Um dos ncRNAs que está associado a um pTSS está atualmente anotado como uma proteína hipotética. Em relação aos ncRNAs que não apresentaram inícios de transcrição associados, 8 estão localizados antisense a sequências de inserção repetitivas e 14 estão localizados nas regiões duplicadas dos plasmídeos. Essas regiões são desconsideradas das análises uma vez que não é possível definir com precisão a origem dos reads produzidos a partir delas (Seção 3.6 - Sequenciamento e processamento dos dados). Para 2 ncRNAs localizados antisense a extremidade 5' de transposases de cópia única, existe enriquecimento de início de reads na biblioteca TEX + em posições próximas, e embora o número de reads alinhados às posições, ou o p-valor, tenham ficado próximos ao limiar definido na ferramenta TSSAR, não foram suficientes para classificação dessas posições como TSSs. Essas regiões provavelmente estão envolvidas com a produção de pequenos RNAs responsáveis pela regulação pós-transcricional das transposases, como já descrito para E. coli (Ma & Simons, 1990) e também para nas archaea S. sulfataticus (Tang et al., 2005) e Methanosarcina mazei (Jager et al., 2009). Para os demais 8 ncRNAs não houve nenhum sinal de início de transcrição.

Para verificar se alguns dos transcritos associados a oTSS poderiam gerar pequenas proteínas, utilizamos como base a anotação da linhagem R1 de H. salinarum. A aplicação de um protocolo específico para extração e análise de pequenas proteínas identificou 90 genes codificadores de proteínas menores que 10 kDa nessa linhagem (Klein et al, 2007). 18 destes genes não estão presentes na anotação atual da linhagem NRC-1, no entanto, buscando por sequências homólogas, utilizando a ferramenta BLAST (Altschul et al., 1990), identificamos 30 pequenas ORFs (smORFs) com 100 % de similaridade a esses genes. O gene OE1231R, uma sequência de inserção pertencente a família ISH2, apresentou 13 cópias no genoma da linhagem NRC-1 (Tabela 9).

Analisando essas regiões em conjunto com os dados oriundos do dRNA-seq foi possível identificar o início de transcrição para 16 smORFs não anotadas em NRC-1, das quais 12 estão associadas a oTSS, duas são precedidas por TSSs primários e duas por TSS internos a genes upstream (Tabela 9).

Quatro smORFS associadas a oTSSs, homólogas aos genes OE_1789R, OE_3268F, OE_1435R, OE_4440F de H. salinarum R-1, codificam proteínas com o motivo CpxCG, similar a motivos dedos de zinco e associado com a regulação da transcrição gênica (Klein et al, 2007) (Figura 18). Em H. salinarum R-1 esse motivo é usualmente encontrado em proteínas menores de 20 kDa (Klein et al, 2007). Já na linhagem NRC-1, está presente na proteína codificada pelo gene VNG_RS05710, a qual atua na regulação dos genes bop, codificante da bacteriorodopsina e crtB1, codificante de uma importante enzima da biossíntese de carotenoides (Tarasov et al., 2008). Três dessas smORFs são superexpressas ao longo da curva de crescimento de H. salinarum NRC-1, enquanto a expressão da smORF homóloga ao gene OE_3268F é reprimida (Figura 18). Essas informações sugerem que essas regiões apresentam importantes papéis funcionais ao longo do crescimento desse micro- organismo.

Tabela 9: Pequenas proteínas de H. salinarum R1 não anotados no genoma de H. salinarum NRC-1

Gene R1 Cromossomo Inicio Fim Orientação TSS associado Massa [Da]

OE1120F chr 66054 66251 + - 7556 OE3047F chr 1060045 1060191 + - 6054 OE3268F chr 1189961 1190134 + oTSS 6358 OE3859B1F chr 1505330 1505425 + iTSS 3487 OE4347F chr 1789808 1789984 + oTSS 6600 OE4440F chr 1838364 1838513 + oTSS 4125 OE4491F chr 1864948 1865109 + oTSS 6177 OE1435R chr 226021 226179 - pTSS 5869 OE1594R chr 309533 309685 - oTSS 5779 OE1789R chr 409836 409991 - oTSS 5670 OE2521R chr 796243 796389 - oTSS 5319 OE3009R chr 1043476 1043619 - oTSS 5046 OE3141R chr 1110237 1110413 - iTSS 6353 OE3365R chr 1247170 1247331 - - 5464 OE3750R chr 1447469 1447639 - pTSS 6666

OE5075F plasmid_pNRC200 162134 162286 + oTSS 5857 OE5177F plasmid_pNRC200 219985 220194 + oTSS 8281

OE1231R chr 1230496 1230699 - - 7655

OE1231R chr 759667 759870 - - 7655

OE1231R chr 177093 177296 - oTSS 7655

OE1231R chr 771722 771925 - oTSS 7655

OE1231R plasmid_pNRC200 70849 71052 + - (região repetitiva) 7655 OE1231R plasmid_pNRC200 74812 75015 - - (região repetitiva) 7655 OE1231R plasmid_pNRC200 112954 113157 - - (região repetitiva) 7655 OE1231R plasmid_pNRC200 121887 122090 - - 7655 OE1231R plasmid_pNRC200 308896 309099 - - 7655 OE1231R plasmid_pNRC100 70849 71052 + 7655 OE1231R plasmid_pNRC100 153698 153901 + - (região repetitiva) 7655 OE1231R plasmid_pNRC100 74812 75015 - - (região repetitiva) 7655 OE1231R plasmid_pNRC100 150412 150615 - - (região repetitiva) 7655