identificação e anotação das sequências de origem das tags e suas

3.7 Bioinformática e análise dos dados

3.7.3 identificação e anotação das sequências de origem das tags e suas

Todas as sequências de tags que apresentaram nível de expressão ≥ 2 cópias na biblioteca foram utilizadas para encontrar as sequências de cDNA que lhes deram origem, no banco de dados de ESTs do projeto Genolyptus e/ou no banco de dados públicos do NCBI.

O projeto Genolyptus (Rede Brasileira de Pesquisa do Genoma do Eucalyptus) foi desenvolvido em 2002 como uma parceria de 12 empresas do setor de papel e celulose, 7 Universidades, a Embrapa e o Ministério da Ciência e Tecnologia. Esse projeto foi formado a partir do sequenciamento de aproximadamente 135.000 ESTs que dentro do Laboratório Max Feffer resultaram na construção de aproximadamente 23.292

contigs representativos de amostras de folhas, plântulas, raízes, xilema, floema e flores

de diversas espécies de eucalipto como, E. globulus, E. grandis, E. pellita e E.

urophylla. Já o banco de dados do NCBI apresentava até início de abril de 2007 cerca

de 15.000 sequencias de nucleotídeos e 480 sequencias de proteínas para diversas espécies de eucalipto.

O contraste entre as sequências das tags e as sequências de ESTs foi realizado usando a ferramenta de bioinformática BLAST-N que compara sequências de nucleotídeos com uma base de dados também formada por sequências de nucleotídeos (ALTSCHUL et al., 1997), dessa forma, as tags serviram como base para a busca. O resultado do BLAST-N fornece uma lista das sequências de ESTs onde é possível encontrar toda a sequência usada no BLAST-N, ou seja, os 4 pb do sítio de reconhecimento da enzima Nla III (CATG) seguidos pelos 10 pb da tag. No entanto, não fornece informações importantes como a presença de outros sítios CATG após a tag e se existe ou não uma cauda poli(A) 3’ indicando o término da sequência. Para confirmar a identificação, cada sequência encontrada passou por alguns critérios: i) os 10 pb referentes a tag deveriam estar posicionados imediatamente após o sítio de restrição da enzima NlaIII (CATG); ii) ambos deveriam estar o mais próximo da extremidade 3´, uma vez que de acordo com a técnica SAGE, o RNA mensageiro deve ser clivado no sítio de restrição CATG mais próximo da cauda poliA (Figura 13). Dessa forma, todas as sequências de ESTs encontradas foram analisadas manualmente e somente aquelas

que obedeceram aos critérios acima mencionados foram utilizadas na anotação das

tags.

Figura 13 - Sequência ilustrativa de um EST utilizado na anotação da tag mais abundante na biblioteca. Em negrito estão representados todos os possíveis sítios de restrição da enzima Nla III, em itálico e sublinhado encontra-se a sequência de 10 pb da tag específica utilizada no BLAST- N. Logo após o último sítio CATG e na extremidade 3’ da sequência é possível observar a presença da cauda poli(A) terminal

As sequências de ESTs representativas de cada tag foram analisadas tanto através do programa BLAST-X (ALTSCHUL et al., 1997), quanto pelo programa ORF

Finder (Open Reading Frame Finder), utilizando o banco de dados do NCBI como

referência.

O BLAST-X é usado para comparar sequências de nucleotídeos traduzidas em todos os seis quadros possíveis de leitura contra sequências de proteínas. O resultado do BLAST-X é uma lista de alinhamentos possíveis, ordenados de acordo com a confiabilidade do alinhamento a qual é medida pelos valores de E (Figura 14). Estes valores indicam a probabilidade de um dado alinhamento de pontuação igual ou maior ocorrer ao acaso numa dada base de dados, ou seja, quanto maior o valor de E maior a probabilidade do alinhamento ser um produto de um evento ao acaso (ALTSCHUL et al., 1997). Neste trabalho, apenas alinhamentos com valores de E ≤ e-05 foram utilizados na anotação das tags.

>Contig1355ur-xy (whole contig)

5´CACTAACCATCTGCCTTTCTTCATCTTCTTTCTTCTGCTTCTACTCCGTTTCCTCGTTTCGATATCGTGAAAGGAGTCCGTCGACGACA ATGGCCGAGAAGAGCAAGGTCCTGATCATCGGAGGGACGGGCTACATCGGCAAGTTCATCGTCGAAGCGAGTGCAAAAGCAGGGCATCCCA CGTTCGCGCTGGTTAGGCAGAGCACGGTCTCCGACCCCGTCAAGGGCCAGCTCGTCGAGAGCTTCAAGAACTTGGGCGTCACTCTGCTCAT CGGTGATCTGTACGATCATGAGAGCTTGGTGAAGGCAATCAAGCAAGCCGACGTGGTGATATCGACAGTGGGGCACATGCAAATGGCGGAT CAGACCAAGATCGTCGACGCCATTAAAGAAGCTGGCAACGTTAAGAGATTCTTTCCTTCCGAATTCGGCAACGATGTGGACAGGGTGCATG CTGTGGAGCCAGCGAAGTCTGCTTTTGAATTGAAGGCCCAGATCCGCCGTGCCGTGGAGGCGGCAGGCATCCCTTACACCTACGTCCCATG CGGCTGCTTCGCCGGCTACTTCCTCCCAACACTGGCGCAGCCAGGAGTCACTGCTCCTCCGAAGGACAAAGTCACCGTCATGGGCGACGGA AATGCAAAGGCAATTTTCAACAAGGAAGATGACATTGCGGCCTTCACCATCAAGGCTGTGGATGATCCGAGATCGCTGAACAAGATCCTTT ACATCAGGCCTCCTAAGAACGTTTACTCATTCAATGAGCTTGTTGCCTTGTGGGAGAAGAAAATTGGCAAGACCCTCGAGAAGATTTACCT TCCTGAAGAGCAAATCCTGAAGCAAATCCAGGAGTCCCCAATTCCCATCAATGTCATATTAGCAGTGAACCATTCAATCTTTGTTAAGGGC GACGGTGCCAATTTTGAGATCGAGGAGTCTTTTGGTGTCGAGGCTTCTGAGCTGTACCCAGATGTGAAGTACACTACAGTGGAAGAATACC TCGAAAATTTTGTCTAAATTAAGGCCATGCGTCTCCTGTTCTTCAAGGAGTGAGTTACCGTGACTCTGGTGGACAGTTGATATGTATTAAA AGGCTGTACACCTAAAGAATATCAAAGGTCACGGTCTTATTTAGAATTGTCTCTGATGTCATATTCTTCTTGGTCTTCCTGGACATGTATT TGCTTTCCTTTGCTGTGGTATCCATGAATTTCCCAGGTTGTTGAAATTAACTTTGCTTGTCTGATATATTTCATCTCTCAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA3´

Figura 14 - Resultado ilustrativo gerado pelo BLAST-X para o EST associado a tag mais abundante

O ORF Finder é uma ferramenta do NCBI capaz de identificar todos os quadros

abertos de leitura possíveis para uma dada sequência de nucleotídeos. A sequência de nucleotídeo traduzida em proteína possui um quadro de leitura que inicia com o códon de iniciação ATG (metionina) e se estende através de uma série de trincas representando aminoácidos até terminar em um dos três tipos de códon de terminação (TAA, TAG, TGA).

A partir dos resultados obtidos pelo BLAST-X e pelo ORF Finder foi possível obter a sequência completa da proteína, assim como, buscar o domínio funcional (Figura 15).

Para determinar a função das proteínas identificadas foram utilizadas diversas ferramentas computacionais de análise de sequências presentes em diferentes bancos de dados. O uso dessas ferramentas é essencial para atribuição de funções já que apenas uma pequena parcela das proteínas atualmente conhecidas apresenta suas funções determinadas experimentalmente (SCHULTZ et al., 1998). As ferramentas computacionais são capazes de reconhecer os domínios conservados das proteínas mediante a presença de padrões de aminoácidos. Os domínios das proteínas são

unidades distintas de evolução molecular e representam uma discreta unidade de estrutura molecular tridimensional. Os domínios protéicos são usualmente associados com um aspecto molecular particular, tais como, catálise e ligação e podem fornecer uma indicação da função molecular e celular da proteína (MARCHLER-BAUER et al. 2007). A ferramenta CDD (Conserved Domain Database) (MARCHLER-BAUER et al. 2005) presente no site do NCBI contém mais de 12.000 modelos de domínios de proteínas importados de outros bancos como Pfam (BATEMAN et al., 2002; FINN et al., 2006), SMART (SCHULTZ et al., 1998; LETUNIC et al., 2006) e COG (TATUSOV et al., 2003). Já o KEGG é um banco de dados que integra informações moleculares e sistemas de informações biológicas. Esse banco é muito útil, pois possui mapas das vias metabólicas, que representam as interações moleculares e a rede de reações para o metabolismo e outros processos celulares (KANEHISA et al., 2006).

Sequência da Proteína mahkskiliiggtgyigkfiveasaksghptfalvrestvsdpvkgklvekfkglgvtllhgdlydheslvkafkqvdvvistvghlqla dqvkiiaaikeagnikrffpsefgndvdrvhavepaktafatkaeirrkteaegipytyvssnffagyflptlaqpgltspprekvvifg dgnaravfnkeddigtytiravddprtlnkivyikpakniysfneivalwekkigktlekiyvpeekllkdiqespipinvilainhsvfvk gdhtnfeieasfgveaselypdvkyttveeylqqfv Domínio Funcional Sequência da Proteína mahkskiliiggtgyigkfiveasaksghptfalvrestvsdpvkgklvekfkglgvtllhgdlydheslvkafkqvdvvistvghlqla dqvkiiaaikeagnikrffpsefgndvdrvhavepaktafatkaeirrkteaegipytyvssnffagyflptlaqpgltspprekvvifg dgnaravfnkeddigtytiravddprtlnkivyikpakniysfneivalwekkigktlekiyvpeekllkdiqespipinvilainhsvfvk gdhtnfeieasfgveaselypdvkyttveeylqqfv Domínio Funcional

Figura 15 - Resultado ilustrativo para análise do EST associado a tag mais abundante, apresentando a sequência completa da proteína gerada pelo BLAST-X, e o domínio funcional obtido pelo programa CDD

No documento Análise serial da expressão gênica do caule de plantas de Eucalyptus grandis com... (páginas 79-82)