Predição de genes Predição de genes
Prof. Dr. Rodrigo Matheus Pereira
rodrigopereira@ufgd.edu.br
Análise de Genomas - Predição
Rápido acúmulo de sequênciasPressão para predizer a estrutura acurada do gene nos genomas através de programas computacionais;
A predição computacional de genes é pré-requisito para anotação funcional detalhada de genes e
Análise de Genomas - Predição
O processo inclui detectar ORFs (Open Read Frames) e estruturas de íntrons/éxons (no caso de eucariotos);A predição acurada de genes pode reduzir A predição acurada de genes pode reduzir
Análise de Genomas - Predição
Predição acurada em eucariotos -> complexaPredição é um dos grandes desafios no campo de reconhecimento de padrões;
reconhecimento de padrões;
Análise de Genomas - Predição
Motifs são curtas sequências, de padrões recorrentes no DNA que presumivilmente possuem função biológica.
Frequentemente eles indicam sites de ligação na sequência, específicos para proteínas como nucleases e fatores de transcrição (FT).
Fonte: What are DNA sequence motifs? - Nature Biotechnology
Análise de Genomas - Predição
Estratégias de programas de predição:Métodos baseados em “ab initio”;
Análise de Genomas - Predição
Métodos baseados em “ab initio”;Prediz baseado unicamente na sequência;
Como ele prediz somente baseado na sequência? Como ele prediz somente baseado na sequência?
Análise de Genomas - Predição
Métodos baseados em “ab initio”;Primeira: A existência de sinais gênicos (Ex.: códons iniciais e finais, sinais de íntrons, sítios de ligação de iniciais e finais, sinais de íntrons, sítios de ligação de fatores de transcrição, sítios de ligação ribossomal, e sítios de poliadenilação(poly-A));
Análise de Genomas - Predição
Métodos baseados em homologia de sequências;Prediz baseado na similaridade da sequência analisada com sequências de genes conhecidos;
A observação de elevada similaridade com genes
Análise de Genomas - Predição
Predição consenso;
Há também programas que combinam os resultados de predição de múltiplos programas gerando um único de predição de múltiplos programas gerando um único resultado consenso;
Análise de Genomas - Predição
Predição em Procariotos;Bacteria e Archaea
Densidade elevada, mais de 90% do genoma são regiões codantes;
codantes;
Cada gene procariótico é composto de um único
trecho contíguo de ORF que codifica para uma única proteína ou RNA, sem interrupções
Análise de Genomas - Predição
Predição em Procariotos;Maioria dos genes tem um códon inicial ATG (ou AUG no mRNA) a qual instrui para codificar uma
metionina; metionina;
GTG e TTG são usados como códons iniciais
alternativos, mas metionina é o aminoácido inserido na primeira posição;
Nem sempre ATG, GTG e TTG indicam o ponto de início de tradução;
Análise de Genomas - Predição
Predição em Procariotos;
Características auxiliares na predição em procaritos:
Sítio de ligação ribossomal – “Sequência Shine Delgarno”; Trecho de sequência rico em purina complementar ao 16S rRNA no ribossomo;
no ribossomo;
Análise de Genomas - Predição
Predição em Procariotos;O motif consenso AGGAGGT auxilia localizar o códon
inicial; inicial;
Análise de Genomas - Predição
Predição em Procariotos;O fim do operon é caracterizado por um sinal de
terminação da transcrição chamado ”ρ-independente
terminação da transcrição chamado ”ρ-independente terminator”.
A sequência de terminação tem uma
estrutura secundária distinta na forma de
Análise de Genomas - Predição
Predição em Procariotos;Determinação convencional de ORFs;
Sinais característicos dos genes procarióticos; Genomas simples;
Genomas simples;
Tradução da ORF em seis frames
Análise de Genomas - Predição
Predição em Procariotos;Distribuição não aleatória de nucleotídeos;
Baseado na composição de nucleotídeos observando a Baseado na composição de nucleotídeos observando a terceira posição do códon;
Análise de Genomas - Predição
Predição em Procariotos;Sequências codantes tem maior frequência de G ou C, ao invés de A ou T.
ao invés de A ou T.
Análise de Genomas - Predição
Método Ruído GC ou
Análise de Genomas - Predição
Métodos Estatísticos (TESTCODE e Ruído GC)Baseados em regras empíricas, examinam estatísticas de ocorrência de um único nucleotídeo G ou C;
Bons para genes típicos;
Análise de Genomas - Predição
Predição em Procariotos;Nova geração de algoritmos de predição usam métodos estatísticos mais sofisticados;
Análise de Genomas - Predição
Predição em Procariotos;
Processo Markov: cadeia linear de eventos individuais ligados entre si por probabilidade de valores de modo ligados entre si por probabilidade de valores de modo que a ocorrência de um evento (ou estado) depende da ocorrência do evento (s) anterior (ou estados).
Análise de Genomas - Predição
Predição em Procariotos;O uso de modelos de Markov para encontrar ORFs explora o fato de que a distribuição de explora o fato de que a distribuição de oligonucleotídeos nas regiões da codificação são diferentes daquelas para as regiões não-codificadoras.
Análise de Genomas - Predição
Predição em Procariotos;Probabilidade de ocorrência de um nt depende da ocorrência dos anteriores;
ocorrência dos anteriores;
A ausência de aleatoriedade indica uma possível ORF; Trímeros ou hexameros (quinta-ordem) -> modelos Markov mais eficientes
Análise de Genomas - Predição
Predição em Procariotos;Treinamento dos parâmetros de Markov em sequências conhecidas;
Uma vez treinada pode ser aplicado para sequências Uma vez treinada pode ser aplicado para sequências desconhecidas;
Análise de Genomas - Predição
Predição em Procariotos-PROGRAMAS;Análise de Genomas - Predição
Predição em Eucariotos - Dificuldades;Problema da aleatoriedade de íntrons;
mRNA imaturo, até mRNA maduro sofre três alterações;
alterações;
Primeiro: metilação do final 5´;
Segundo: “ splilicing” (Obs.:Processo não totalmente compreendido);
Análise de Genomas - Predição
Predição em Eucariotos;Fatores que possibilitam a predição
GT-AG nas junções de éxons;
Alguns padrões usados em procariotos podem ser Alguns padrões usados em procariotos podem ser usados em eucariotos devido a essa característica; Ruído de códon e frequência de hexameros;
Alta densidade de CG próximo do sítio inicial(chamado de “CpG island”);
Análise de Genomas - Predição
Predição em Eucariotos-PROGRAMAS;Predição usando ab initio:
GRAIL (Gene Recognition and Assembly Internet Link)
http://compbio.ornl.gov/grailexp/
Predição Usando Análise Discriminante: Predição Usando Análise Discriminante:
FGENESSH
http://linux1.softberry.com/berry.phtml?topic=fgenesh&grou p=programs&subgroup=gfind
Predição usando HMM
GENSCAN
http://genes.mit.edu/GENSCAN.html
Análise de Genomas - Predição
Predição em Eucariotos-PROGRAMASBaseados em homologia: GenomeSCAN
http://genes.mit.edu/genomescan.html http://genes.mit.edu/genomescan.html
EST2Genome
http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::est2genome
TwinScan
Análise de Genomas - Predição
Abbreviations: Sn, sensitivity; Sp, specificity; CC,Análise de Genomas – Predição
Glossário
Processo Markov: cadeia
linear de eventos individuais ligados entre si por valores de modo que a probabilidade da ocorrência
de um evento (ou estado) depende da de um evento (ou estado) depende da
ocorrência do evento(s) anterior (ou estados).
Ele pode ser aplicado às seqüências biológicas no qual cada caractere em uma seqüência pode
Bibliografia
XIONG, Jin. Essential Bioinformatics. Cambridge, EUA: Cambridge University Press, 2006. 339p. Capítulos 8 e 9.
AGOSTINO, Michael. Practical bioinformatics. New AGOSTINO, Michael. Practical bioinformatics. New York: Garland Science, ©2013. 367p. Capitulo 7.Páginas 163 a 166,
ZVELEBIL, Marketa; BAUM, Jeremy O. Understanding bioinformatics. New York: Garland Science, 2008.