• Nenhum resultado encontrado

FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR. Vincenzo De Roberto Junior

N/A
N/A
Protected

Academic year: 2021

Share "FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR. Vincenzo De Roberto Junior"

Copied!
163
0
0

Texto

(1)

FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR

Vincenzo De Roberto Junior

TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS EM ENGENHARIA CIVIL.

Aprovada por:

____________________________________________ Prof. Nelson Francisco Favilla Ebecken, D.Sc.

____________________________________________ Prof. Alexandre Gonçalves Evsukoff, Dr.

____________________________________________ Prof. Orlando Bonifacio Martins, D. Sc.

____________________________________________ Prof. Emmanuel Piseces Lopes Passos, D. Sc.

____________________________________________ Prof. Luiz Biondi Neto, D. Sc.

RIO DE JANEIRO, RJ – BRASIL OUTUBRO DE 2007

(2)

Livros Grátis

http://www.livrosgratis.com.br

(3)

ROBERTO JUNIOR, VINCENZO DE

Ferramenta Auxiliar para Identificação de Regiões Codificadoras em Organismos Eucariotos – EXONBR [Rio de Janeiro] 2007

XVI, 144 p. 29,7 cm (COPPE/UFRJ, D.Sc., Engenharia Civil, 2007)

Tese - Universidade Federal do Rio de Janeiro, COPPE

1. Bioinformática 2. Redes Neurais 3. Interface

(4)

A Deus, ao meu pai, à minha mãe e à minha querida Danielle

(5)

AGRADECIMENTOS

A Deus, por me confortar e me orientar em todos os instantes da vida, me dando ainda a saúde e a determinação necessárias ao desenvolvimento desse trabalho.

A minha querida Danielle pelo apoio, ajuda e paciência em todos os instantes. Aos meus pais e minha tia Carmela, pelo incentivo e contribuição na minha formação como pessoa e como profissional.

Ao professor Nelson, por todo o conhecimento e incentivo transmitidos, bem como pela confiança em mim depositada.

Ao meu amigo Elias pela ajuda e incentivo.

A todos os professores, colegas e funcionários que, de alguma forma ajudaram no desenvolvimento desse trabalho.

(6)

Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (DSc.)

FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR

Vincenzo De Roberto Junior

Outubro/2007

Orientador: Nelson Francisco Favilla Ebecken

Programa: Engenharia Civil

A conclusão de vários projetos de seqüenciamento proporciona um volume considerável de dados, que precisa ser processado adequadamente de forma a se obter informações genéticas úteis. Uma das regiões mais importantes para neste processo são conhecidas como genes. A identificação de genes em organismos eucariotos é um problema que ainda hoje não teve uma completa solução.

Esta tese investiga a aplicação de técnicas de inteligência computacional para a solução deste problema. Os principais objetivos deste trabalho são melhorar a predição das regiões codificadoras e a criação de uma ferramenta auxiliar para detecção destas regiões em genes eucariotos, denominada ExonBR.

As principais inovações propostas são a utilização da técnica de redes neurais com entradas baseadas nas probabilidades dos hexâmeros (matriz peso-posição modificada) para detecção de regiões codificadoras e a disponibilização, para o biólogo, de uma ferramenta adaptável a qualquer organismo.

Os objetivos deste trabalho foram alcançados, criando uma ferramenta amigável e adaptável a qualquer organismo. De acordo com os resultados encontrados, este programa pode ser comparado aos melhores existentes atualmente, com taxas de acerto variando entre 80% e 95% para o organismo para o qual foi treinado e aqueles próximos, evolutivamente, dele.

(7)

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (DSc.)

AUXILIARY TOOL FOR THE IDENTIFICATION OF GENETIC CODING SEQUENCES IN EUKARYOTIC ORGANISMS - EXONBR

Vincenzo De Roberto junior

October/2007

Advisor: Nelson Francisco Favilla Ebecken

Department: Civil Engineering

The conclusion of several sequencing projects provides a considerable amount of data that needs to be processed appropriately in order to obtain useful genetic information. Among these areas, the most important in that process are known as genes. The gene finding in eukaryotic organisms is an unsolved problem yet.

The thesis analyses the use of computational intelligence techniques to solve that problem. The main objective of this work is improving the performance of the prediction of coding regions and creating an auxiliary tool for the identification of coding areas in eukaryotic genes, called ExonBR.

The main innovation proposed in this work is the use of neural networks with inputs based on the probabilities of hexamers (modified weight-position matrix) for detection of coding areas and to make available to biologists a tool suitable to any organism.

The target of this work was reached by creating a friendly and suitable tool for any organism. In accordance with the obtained results, this program can be compared to the best ones that exist nowadays. The program ExonBR shows prediction rates about 80% and 95% for the organism that was trained and those ones evolutionary near to it.

(8)

INDICE

1 INTRODUÇÃO ... 1

1.1 OBJETIVOS... 1

1.2 CONCEITOS BÁSICOS DE BIOQUÍMICA... 2

1.3 COMPOSIÇÃO DO TRABALHO... 4

2 BANCO DE DADOS EM BIOLOGIA MOLECULAR (BDBM) ... 6

2.1 INTRODUÇÃO... 6

2.2 OS PRINCIPAIS BANCOS DE DADOS DE BIOLOGIA MOLECULAR... 7

2.3 CARACTERÍSTICAS DE BDBMS... 10

2.3.1 Volume de Dados... 10

2.3.2 Consistência da Informação ... 10

2.3.3 Informações Armazenadas ... 11

2.3.4 Formatos dos Bancos de Dados ... 14

2.4 GENBANK... 18

2.4.1 Esquema ... 19

2.4.2 Outras informações armazenadas... 24

2.4.3 A construção do Banco de Dados ... 25

2.4.4 Informações adicionais... 26

3 AS PRINCIPAIS FERRAMENTAS PARA BUSCA DE GENES ... 27

3.1 INTRODUÇÃO... 27

3.2 GRAIL(GENE RECONIGNITION AND ANALYSIS INTERNET LINK) ... 29

3.3 GENEID ... 32

3.4 FGENEH/FGENES ... 32

3.5 NETPLANTGENE... 33

3.6 PROCRUSTES... 36

3.7 MZEF(MICHEAL ZHANG’S ÉXON FINDER) ... 37

3.8 GENIE... 40 3.9 GENSCAN ... 42 3.10 GENEPARSER... 46 3.11 HMMGENE... 50 3.12 MORGAN... 51 3.13 GENEMARK.HMM... 54

(9)

3.14.1 Método baseado em AND ... 56

3.14.2 Método baseado em OR ... 57

3.14.3 Método HIGHEST ... 58

3.14.4 Método RULE... 59

3.14.5 Método BOUNDARY... 60

3.14.6 Algoritmo EUI (Éxon Union-Intersection) ... 61

3.14.7 Algoritmo GI (Gene Intersection) ... 61

3.14.8 Algoritmo EUI_frame (Éxon Union-Intersection with Reading Frame Consistency) ... 61

3.14.9 Algoritmo SNB (Static Naive Bayes) ... 62

3.14.10 Algoritmo SFB (Static Full Bayes) ... 62

3.15 OUTRAS TÉCNICAS E FERRAMENTAS... 63

3.15.1 GeneSeqer ... 63

3.15.2 GeneSplicer ... 64

3.15.3 Reconhecimento de pequenas regiões codificadoras baseadas no códon terminal . 64 3.15.4 Twinscan ... 65 3.15.5 GeneMachine ... 65 3.15.6 SGP2 ... 65 3.15.7 AGenDA ... 66 3.15.8 DGSplicer... 66 3.15.9 SpliceMachine... 66 3.15.10 GeneZilla... 67 3.15.11 JIGSAW ... 67 3.15.12 SpliceScan... 67

4 MEDIDAS DE EXATIDÃO DA PREDIÇÃO ... 68

4.1 INTRODUÇÃO... 68

4.2 NÍVEL DE NUCLEOTÍDEOS... 68

4.3 NÍVEL DE ÉXONS... 71

5 METODOLOGIA ... 74

5.1 INTRODUÇÃO... 74

5.2 OMODELO PARA GENE... 75

5.3 SELEÇÃO DE DADOS... 77

5.4 O MODELO PARA A DESCOBERTA DE REGIÕES CODIFICADORAS... 78

5.5 A PROBABILIDADE DA REGIÃO CODIFICADORA... 84

(10)

6 RESULTADOS E DISCUSSÃO 86

6.1 AVALIAÇÃO DO MODELO PARA ÉXONS (REGIÕES CODIFICADORAS) ... 87

6.1.1 Seleção de dados ... 87

6.1.2 Testes com a rede neural ... 88

6.2 TESTES EM NÍVEL DE SEQÜÊNCIA... 115

6.2.1 Seleção de dados ... 115

6.2.2 Testes da técnica ... 115

6.2.3 Testes com outras espécies... 117

7 A FERRAMENTA ... 125

7.1 DIAGRAMA DO CONTEXTO DO SISTEMA EXONBR... 127

7.2 DIAGRAMA DE FLUXO DE DADOS DO SISTEMA EXONBR ... 127

7.3 DIAGRAMA DE TRANSIÇÃO DE ESTADOS DO SISTEMA EXONBR ... 128

7.4 FUNCIONAMENTO DO SISTEMA EXONBR ... 130

8 CONCLUSÃO ... 133

(11)

Lista de Abreviações

A Adenina

AC Correlação aproximada (approximate correlation)

B G T C

BAC Bacterial Artificial Chromosome

BDBM Banco de Dados em Biologia Molecular bp Pares de bases (bases pairs)

C Citosina

CC Coeficiente de correlação

cDNA clone de DNA

D G A T

DNA Ácido Desoxirribonucléico ESn Sensibilidade em nível de éxon ESp Especificidade em nível de éxon EST Expressed Sequence Tags

EUI Exon Union-Intersection

FN falsos negativos (false negatives) FP falsos positivos (false positives)

G Guanina

GHMM Modelo Oculto de Markov Generalizado GSS Genome Survey Sequences

H A C T

HMM Modelo Oculto de Markov

HTC High Throughput cDNA Sequences HTGS High Throughput Genomic Sequences

INSDC International Nucleotide Sequence Database Colaboration

K G T (keto)

M A C (amino)

MDD Maximal Dependence Decomposition

ME Éxons perdidos (Missing éxons)

mRNA RNA mensageiro

N A G C T (qualquer)

NCBI National Center for Biotechnology Information

NIH National Institute of Health

ORF Quadros de leitura abertos (Open Reading Frame) pré-mRNA pré RNA mensageiro (não maduro)

R G A (purinas)

RNA Ácido Ribonucléico

S G C

Sn Sensibilidade

Sp Especificidade

STS Sequence Tagged Sites

T Timina

TN verdadeiros negativos (true negatives) TP verdadeiros positivos (true positives) tRNA RNA transportador

U Uracil

(12)

WAM Weight Array Model

WE Éxons errados (Wrong éxons)

WMM Método de matriz de pesos (Weight Matrix Model) WWAM Windowed second order Weight Array Model

(13)

Índice de Figuras

Figura 1.1 – Síntese de proteínas (Baxevanis & Ouellette, 2001)... 4

Figura 2.1 - Crescimento do GenBank ... 19

Figura 3.1 – Exemplo de duas variáveis a qual uma função quadrática separa os dois grupos ... 38

Figura 3.2 – Modelo do Genie... 40

Figura 3.3 – Modelo do GenScan ... 43

Figura 3.4 – Rede Neural do GeneParser ... 50

Figura 3.5 – Árvore de decisão para classificação de seqüências como éxons internos ... 53

Figura 3.6 – Modelo Oculto de Markov do GeneMark.hmm... 56

Figura 3.7 – Técnica de Combinação de programas utilizando o método AND... 57

Figura 3.8 – Técnica de Combinação de programas utilizando o método OR... 58

Figura 3.9 – Técnica de Combinação de programas utilizando o método HIGHEST ... 59

Figura 3.10 – Técnica de Combinação de programas utilizando o método RULE ... 60

Figura 3.11 – Static Naive Bayes... 62

Figura 3.12 – Static Full Bayes ... 63

Figura 4.1 – Tabela de contigência que representa o relacionamento entre os nucleotídeos codificados preditos e reais ... 68

Figura 4.2 – Exemplo das medidas em nível de nucleotídeos... 69

Figura 4.3 – Exemplo das medidas em nível de éxons... 71

Figura 5.1 – Funcionamento da ferramenta auxiliar para predição de genes ExonBR ... 75

Figura 5.2 – Modelo de gene ... 76

Figura 5.3 – Exemplo da criação das janelas ... 78

Figura 5.4 – Seleção dos hexâmeros numa seqüência... 80

Figura 5.5 – Exemplo de codificação de entrada na rede neural ... 82

Figura 5.6 – Exemplo de redes backpropagation testadas para regiões codificadoras ... 83

Figura 5.7 – Exemplo de redes backpropagation testadas para regiões codificadoras com informação de G+C ... 84

Figura 6.1 – Variação da taxa de erro em relação a quantidade de seqüências na entrada em redes neurais para éxons internos ... 91

Figura 6.2 – Variação da taxa de erro em relação a quantidade de épocas para rede neural Backpropagation para 48 bp e 21 neurônios na camada escondida ... 91

(14)

Figura 6.3 – Gráfico comparativo da taxa de erro em nível de éxons em relação a rede com e sem informação de G+C ... 93 Figura 6.4 – Gráfico comparativo das taxa de erro em relação a quantidade de neurônios

na camada escondida para rede neural de éxons internos ... 94 Figura 6.5 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 48 bp com 17 neurônios na camada escondida para éxons internos ... 95 Figura 6.6 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons internos ... 97 Figura 6.7 – Variação da taxa de erro em relação a quantidade de seqüências na entrada

para as redes neurais de éxons iniciais ... 100 Figura 6.8 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 40 bp para éxons iniciais... 100 Figura 6.9 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas das

redes neurais para éxon iniciais com e sem informação de G+C ... 101 Figura 6.10 – Gráfico comparativo das taxa de erro em relação a quantidade de

neurônios na camada escondida da rede neural para éxons iniciais ... 103 Figura 6.11 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 40 bp com 3 neurônios na camada escondida para éxons iniciais ... 103 Figura 6.12 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons iniciais ... 105 Figura 6.13 – Variação da taxa de erro em relação à quantidade de seqüências na

entrada da rede neural para éxons terminais... 107 Figura 6.14 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation para éxons terminais com 37 bp e 15 neurônios na camada escondida ... 108 Figura 6.15 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas

das redes neurais para éxon terminais com e sem informação de G+C ... 109 Figura 6.16 – Gráfico comparativo das taxa de erro em relação à quantidade de

neurônios na camada escondida da rede neural para éxons terminais... 111 Figura 6.17 – Variação da taxa de erro em relação à quantidade de épocas para rede

neural Backpropagation de 37 bp com 2 neurônios na camada escondida para éxons terminais ... 111

(15)

Figura 6.18 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons terminais ... 113

Figura 6.19 – Gráfico comparativo de desempenho para Drosophila melanogaster... 117

Figura 6.20 – Variação da taxa de erro em relação a quantidade de épocas para rede neural Backpropagation de 55 bp com 12 neurônios na camada escondida para HMR 195 ... 119

Figura 6.21 – Gráfico comparativo de desempenho para o HMR195... 119

Figura 6.22 – Variação da taxa de erro em relação à quantidade de épocas para rede neural Backpropagation de 54 bp com 9 neurônios na camada escondida para Arabidopsis thaliana ... 121

Figura 6.23 – Gráfico comparativo de desempenho para a Arabidopsis thaliana ... 121

Figura 6.24 – Variação da taxa de erro em relação a quantidade de épocas para rede neural Backpropagation de 54 bp com 20 neurônios na camada escondida para Oryza sativa... 123

Figura 6.25 – Gráfico comparativo de desempenho para Oryza sativa (arroz)... 123

Figura 7.1 – Tela principal da ferramenta ExonBR... 125

Figura 7.2 – Tela do modo teste da ferramenta ExonBR ... 126

Figura 7.3 – Tela do treinamento da rede neural da ferramenta ExonBR ... 126

Figura 7.4 – Diagrama do contexto do sistema ExonBR ... 127

Figura 7.5 – Diagrama de Fluxo de Dados (DFD) do sistema ExonBR ... 128

(16)

Índice de Tabelas

Tabela 2.1- O número de bases no GenBank dos 20 organismos mais seqüenciados ... 11 Tabela 2.2 - Número de seqüências dos 10 mais abundantes organismos no UniPro .. 13 Tabela 2.3 – Caracteres definidos pela International Union of Pure and Applied

Chemistry (IUPAC) ... 15

Tabela 2.4 – Divisões do GenBank ... 22 Tabela 5.1 – Exemplo de quantidade de hexâmeros por posição normalizada ... 80 Tabela 6.1 – Resultados dos testes com a quantidade de hexâmeros para a rede neural de éxon interno ... 90 Tabela 6.2 - Resultados dos testes com importância da taxa de G+C para a rede neural de éxon interno ... 92 Tabela 6.3 - Resultados dos testes com tamanho da camada escondida da rede neural de éxon interno ... 94 Tabela 6.4 - Resultados dos testes da influência do valor de saída na rede neural de éxon interno... 96 Tabela 6.5 – Importância da rede neural na descoberta de regiões codificadora para éxons internos ... 98 Tabela 6.6 - Resultados dos testes com a quantidade de hexâmeros para a rede neural de éxon iniciais... 99 Tabela 6.7 - Resultados dos testes com importância da taxa de G+C para a rede neural de éxon iniciais ... 101 Tabela 6.8 - Resultados dos testes com tamanho da camada escondida da rede neural de éxon iniciais... 102 Tabela 6.9 - Resultados dos testes da influência do valor de saída na rede neural de éxon iniciais... 104 Tabela 6.10 – Importância da rede neural na descoberta de regiões codificadora para éxons iniciais ... 106 Tabela 6.11 - Resultados dos testes com a quantidade de hexâmeros para a rede neural de éxon terminal ... 107 Tabela 6.12 - Resultados dos testes com importância da taxa de G+C para a rede neural de éxon terminais... 109 Tabela 6.13 - Resultados dos testes com tamanho da camada escondida da rede neural de éxon terminais... 110

(17)

Tabela 6.14 - Resultados dos testes da influência do valor de saída na rede neural de éxon terminais ... 112 Tabela 6.15 – Importância da rede neural na descoberta de regiões codificadora para éxons terminais ... 114 Tabela 6.16 – Resultados da combinação dos modelos de éxons para Drosophila

melanogaster ... 115

Tabela 6.17 – Tabela com os resultados comparativos dos testes realizados com outras ferramentas ... 116 Tabela 6.18 – Tabela com os resultados comparativos dos testes realizados em nível de nucleotídeos para o HMR 195 ... 118 Tabela 6.19 – Tabela com os resultados comparativos dos testes realizados em nível de nucleotídeos para Arabidopsis thaliana ... 120 Tabela 6.20 – Tabela com os resultados comparativos dos testes realizados em nível de nucleotídeos para Oryza sativa... 122

(18)

1

Introdução

1.1

Objetivos

A conclusão de vários projetos de seqüenciamento, principalmente o do genoma humano no início de 2003, proporciona um volume considerável de dados, aparentemente sem sentido algum, que precisa ser processado adequadamente de forma a se obter informações genéticas úteis a seu respeito. Este processamento inclui várias fases. A primeira delas corresponde a uma análise das seqüências de DNA (ácido desoxirribonucléico) no intuito de reconhecer as diversas regiões componentes desta molécula. Dentre estas regiões, as mais importantes para o processo de síntese de proteínas pelas células são conhecidas como genes, surgindo, então, o problema de identificação de genes.

Segundo Fickett e Tung (1992), o processo de identificação de genes consiste no desenvolvimento de um algoritmo que receba como entrada uma seqüência de DNA e produza como saída uma tabela contendo a localização e a estrutura de todos os genes presentes nessa seqüência. Hoje, as estruturas mais estudadas deste processo são as regiões codificadoras, conhecidas como éxons, e as não codificadoras, conhecidas como íntrons.

A primeira ferramenta, realmente utilizada pelos biólogos, que propôs esta predição para genes eucariotos1 foi o GRAIL (UBERBACHER & MURAL, 1991; MURAL et al., 1992). A partir deste estudo diversos sistemas e problemas foram identificados. Devido à complexidade deste problema, várias técnicas (descritas no Capítulo 3) são empregadas para solucioná-lo.

Alguns problemas persistem, ainda hoje, para a completa solução da predição de genes de eucariotos:

• Dificuldade na predição das estruturas em genes muito pequenos ou muito grandes;

• Taxa de erro elevada na descoberta de estruturas em seqüências que envolvam múltiplos genes;

• Problemas para detecção de regiões diferentes das codificadoras (por exemplo: poli A, promotor e sítios de splice);

1 Existem fundamentalmente duas classes de células: as procarióticas, cujo material genético apresenta-se

disperso no citoplasma e as eucarióticas, com um núcleo bem individualizado e delimitado pelo envoltório nuclear.

(19)

• Os métodos são específicos para um organismo;

• Taxa de acerto baixa para a localização exata das estruturas.

Este trabalho visa melhorar o desempenho da predição para alguns destes problemas, sendo seu principal objetivo criar uma ferramenta auxiliar para identificação das regiões codificadoras em organismos eucariotos. Foi confeccionado para tal um sistema amigável que permitirá a busca destas regiões.

As principais inovações propostas neste trabalho são a utilização da técnica de redes neurais com entradas baseadas nas probabilidades dos hexâmeros2 (matriz peso-posição modificada) para detecção de regiões codificadoras e a disponibilização,para o biólogo, de uma ferramenta adaptável a qualquer organismo.

Esta ferramenta, denominada ExonBR, traz como contribuição a possibilidade do usuário criar bases de dados para qualquer organismo, além da técnica citada anteriormente.

1.2

Conceitos Básicos de Bioquímica

Existem fundamentalmente duas classes de células: as procarióticas, cujo material genético não está separado do citoplasma por uma membrana e as eucarióticas, com um núcleo bem individualizado e delimitado pelo envoltório nuclear. Este trabalho tem como objetivo descobrir regiões codificadoras em genes eucariotos.

O gene é uma unidade hereditária que consiste numa seqüência particular de bases no DNA e que especifica a produção de certa proteína (por exemplo, uma enzima), uma cadeia polipeptídica, um tRNA ou um rRNA. Eles têm diferentes tamanhos e estão situados numa determinada região, denominada lócus.

O DNA (ácido desoxirribonucléico) é o principal armazenador da mensagem genética. Em 1953, Watson e Crick, idealizaram um modelo capaz de explicar as propriedades do DNA. Este modelo representa a molécula de DNA por um filamento duplo formado por muitos nucleotídeos. No DNA as bases nitrogenadas3 são a timina (T), a citosina (C); a adenina (A) e a guanina(G).

Para se entender a estrutura dos genes eucarióticos, é importante descrever como ocorre o processo de síntese de proteínas pelas células destes organismos.

2

Conjunto de 6 nucleotídeos.

3 Os ácidos nucléicos são moléculas formadas pelo encadeamento de um grande número de unidades

chamadas nucleotídeos. Cada nucleotídeo é formado por três tipos de substâncias químicas: um composto cíclico de nitrogênio (base nitrogenada), um açúcar de cinco carbonos (pentose) e um radical de ácido

(20)

A síntese de uma proteína se inicia com um processo chamado de transcrição. A transcrição é a transferência da mensagem genética do DNA para o ácido ribonucléico mensageiro (mRNA). Esta transferência ocorre quando um filamento de DNA se afasta de seu complementar, expondo suas bases, onde se encaixam os nucleotídeos de RNA. Denomina-se promotor a seqüência de nucleotídeos no DNA que interage com a RNA polimerase4, iniciando a transcrição.

O próximo passo da síntese da proteína é denominado tradução. Traduzir a mensagem genética consiste em passar o código, que está na forma de uma seqüência de bases de RNA, para uma seqüência de aminoácidos de uma proteína. O mecanismo de tradução é o seguinte: Um grupo de três bases consecutivas do mRNA é o código correspondente a um aminoácido. Essas trincas de bases são chamadas códons5.

A tradução da seqüência de bases do mRNA para a proteína é feita no ribossomo6. A seqüência de códons do mensageiro determina a seqüência de aminoácidos que formarão a proteína. À medida que os ribossomos deslizam pelo RNA mensageiro, os aminoácidos vão-se unindo e formando uma molécula de proteína.

Observou-se que os genes são interrompidos por inserções de regiões de DNA não codificadoras. Estas seqüências de DNA, que não são encontradas no mRNA maduro, são denominadas seqüências intercaladas ou íntrons, entretanto, nem todos os genes eucarióticos possuem íntrons7. As partes da seqüência de DNA que codificam uma proteína são chamadas de éxons. Existem quatro (4) tipos de éxons:

• Éxons iniciais

Primeiro éxon que aparece num gene.

• Éxons terminais

Último éxon que aparece num gene.

• Éxons internos

Éxons que ficam entre o éxons iniciais e terminais.

• Éxons simples

Gene composto somente de um éxon.

4 Enzima que sintetiza uma molécula de RNA a partir do DNA 5

Existem 64 possíveis códons. Sessenta e um códons correspondem a aminoácidos e três representam sinais para a terminação das cadeias polipeptídicas (códons STOP).

6 O ribossomo é uma organela presente na célula cujos principais constituintes são o ácido ribonucléico

(RNA) e as proteínas

7

(21)

A modificação do pré-mRNA com íntrons para o mRNA maduro é denominado

splicing e ocorre dentro do núcleo. Todo o processo de transformação é ilustrado na

Figura 1.1.

Portanto, dentro dos genes estão codificadas todas as informações genéticas de um dado indivíduo, tornando o reconhecimento destas estruturas um passo importante para a compreensão de todo o maquinário envolvido com o processo de síntese de proteínas pelas células, entendimento este de inquestionável importância prática.

DNA

Éxon 1 Íntron 1 Éxon 2 Íntron 2 Éxon 3 Íntron 3 Éxon 4 Promotor Transcrição RNA 5' 3' Cap 5' Poli-A GU AG GU AG GU AG Sítio de Splice Doador Sítio de Splice Aceptor Splicing mRNA Códon Terminal Códon Inicial Cap 5' Poli-A Tradução Proteína

Figura 1.1 – Síntese de proteínas (Baxevanis & Ouellette, 2001)

1.3

Composição do Trabalho

Além do capítulo introdutório com os objetivos da pesquisa e conceitos básicos de bioquímica, esta proposta conta com outros oito (8) capítulos, divididos conforme se segue:

Capítulo 2 – Este capítulo visa apresentar os principais bancos de dados em biologia molecular (BDBM), as características destes e o formato do GenBank, o principal BDBM existente.

Capítulo 3 –Descreve as principais ferramentas de predição de genes, além das técnicas de combinação de ferramentas, que estão sendo utilizadas atualmente para genes eucariotos.

(22)

Capítulo 4 –Descreve as medidas de exatidão utilizadas para verificar a eficácia das ferramentas de busca de genes.

Capítulo 5 – Apresenta a metodologia que será empregada para o desenvolvimento da ferramenta auxiliar para busca de genes.

Capítulo 6 – Descreve os testes e as discussões sobre a técnica proposta.

Capítulo 7 – Apresenta a ferramenta desenvolvida no trabalho. Capítulo 8 – Apresenta a conclusão e sugestões de trabalhos futuros.

(23)

2

Banco de Dados em Biologia Molecular (BDBM)

2.1

Introdução

Os bancos de dados em biologia molecular (BDBM) são importantes, principalmente, para proporcionar uma forma de tornar os dados produzidos em todo o mundo acessíveis de maneira mais fácil, rápida e inteligente.

A primeira base de dados de biologia molecular surgiu por volta de 1960, quando Dayhoff e colaboradores construíram um catálogo contendo todas as seqüências de proteínas conhecidas até então. Essas seqüências foram publicadas num livro chamado “Atlas of Protein Sequences and Structure”, de 1965. O conteúdo dessa base de dados não ultrapassaria 1 Mb, se transferido para computadores modernos.

Com o advento do seqüenciamento do DNA e, principalmente, a partir do seqüenciamento em larga escala (década de 90), foi necessária a construção de bancos de dados mais robustos para abrigar a explosão no número de seqüências obtidas pelos pesquisadores. O National Center for Biotechnology Information (NCBI), que controla o maior banco de dados de biologia molecular, foi criado pelo National Institute of Health (NIH) em 1988 para abrigar esse tipo de informação.

Dessa forma, foi criada uma colaboração internacional para montar um banco de dados de seqüências de nucleotídeos, a International Nucleotide Sequence Database Colaboration (INSDC). Essa instituição contém o NCBI, o European Molecular Biology Laboratory (EMBL) e o DNA Data Bank of Japan (DDJB). Cada um desses centros possibilita a submissão individual de seqüências de DNA e trocam informações entre si diariamente, sendo que os três possuem informações atualizadas de todas as seqüências disponíveis para os pesquisadores. Apesar disso, cada centro apresenta os dados num formato particular.

Existem muitas outras bases além das que participam do INSDC e, hoje, é difícil estimar o número de BDBM’s existentes. Atualmente, não só existem os bancos de dados de seqüências de nucleotídeos (DNA) e de aminoácidos (proteínas), mas também inúmeros outros com informações bem específicas, como organismos especiais, biosseqüências específicas (ex.: tRNA e rRNA), enzimas, mutações, famílias de biosseqüências (filogenia), entre outros. Além disso, existem bancos que guardam estruturas tridimensionais das biosseqüências.

É possível destacar os seguintes BDBM’s como os maiores atualmente:

(24)

EMBL Nucleotide Sequence Database

Genome Sequence Database (GSDB)

Genome Database (GDB)

UniProt – Universal Protein Resource

A. Caenorhabditis elegans DataBase (ACeDB).

Nestes bancos de dados estão armazenadas anotações relevantes, além das próprias biosseqüências.

Este capítulo visa apresentar os principais BDBM’s, as características destes bancos e o formato do GenBank.

2.2

Os Principais Bancos de Dados de Biologia Molecular

Existem diversas organizações que armazenam BDBM na Internet. A seguir, estão listadas algumas das mais importantes:

GenBank Sequence Database (BENSON et al., 2006)

Organização responsável: National Center for Biotechnology Information (NCBI) at the National Library of Medicine (NLM), National Institutes of Health (NIH) Informações principais: Seqüências de nucleotídeos

URL: http://www.ncbi.nlm.nih.gov/

EMBL Nucleotide Sequence Database (COCHRANE et al., 2006)

Organização responsável: EMBL OutStation - The European Bioinformatics Institute

Informações principais: Seqüências de nucleotídeos URL: http://www.ebi.ac.uk/

Genome Database (GDB) (LETOVSKY et al., 1998)

Organização responsável: U.S Department of Energy, com apoio adicional de U.S. National Institutes of Health, Japanese Science and Technology Agency, the British Medical Research Council, INSERM of France, e European Union.

Informações principais: Seqüências de nucleotídeos URL: http://www.gdb.org/

(25)

UniProt - Universal Protein Resource (WU et al.,2006)

Organização responsável: The European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) e Georgetown University

Informações principais: Seqüências de aminoácidos URL: http://www.uniprot.org

Protein Data Bank (PDB) (BERMAN et al., 2002) Organização responsável: Federal Government Agency Informações principais: Estruturas das proteínas

URL: http://www.rcsb.org/pdb

WormBase (CHEN et al., 2005)

Organização responsável: NIH National Center for Research Resources

Informações principais: C. elegans, Human Chromosome 21, Human

Chromosome X, Drosophila melanogaster, Mycobacteria, Arabidopsis, soybeans, rice, maize, grains, forest trees, Solanaceae, Aspergillus nidulans, Bos taurus, Gossypium hirsutum, Neurospora crassa, Saccharomyces cerevisiae, Schizosaccharomyces pombe, and Sorghum bicolor.

URL: http://www.wormbase.org/

TIGR (LEE et al., 2005)

Organização responsável: The Institute for Genomic Research (TIGR) Informações principais: Seqüências de nucleotídeos

URL: http://www.tigr.org

FlyBase (GRUMBLING et al., 2006)

Organização responsável: U.S. National Institutes of Health e British Medical Research Council.

Informações principais: Drosophila URL: http://flybase.bio.indiana.edu/

Eukariotic Promoter Database (EPD) (SCHMID et al., 2006)

Organização responsável: ISREC em Epalinges s/Lausanne (Switzerland) Informações principais: Eukariotic promoter

(26)

DNA Data Bank of Japan (DDBJ) (OKUBO et al., 2006)

Organização responsável: Center for Information Biology, National Institute of Genetics, Yata, Mishima, Japan

Informações principais: Seqüências de Nucleotídeos. URL: http://www.ddbj.nig.ac.jp

PROSITE (HULO et al., 2006)

Organização responsável: Swiss Institute of Bioinformatics (SIB) Informações principais: Sítios funcionais de proteínas

URL: http://ca.expasy.org/prosite/

Mitomap (BRANDON et al., 1998)

Organização responsável: Emory University, Atlanta Informações principais: Genoma da mitocôndria humana URL: http://www.mitomap.org

ENZYME (BAIROCH, 2000a)

Organização responsável: Swiss Institute of Bioinformatics (SIB) Informações principais: Nomenclatura de enzimas

URL: http://www.expasy.ch/enzyme/

BLOCKS (HENIKOFF et al., 1999)

Organização responsável: Fred Hutchinson Cancer Research Center in Seattle, Washington, USA

Informações principais: Sistema para classificação de proteínas URL: http://blocks.fhcrc.org/

HIV Sequence Database, Los Alamos

Organização responsável: University of California

Informações principais: Banco de dados de seqüências do HIV URL: http://hiv-web.lanl.gov/

Mouse Genome Database (BLAKE et al., 2006)

Organização responsável: National Human Genome Research Institute Informações principais: Genoma do Rato

(27)

Stanford Microarray Database (SHERLOCK et al., 2001) Organização responsável: Stanford University

Informações principais: Banco de dados de Microarray8 URL: http://genome-www5.stanford.edu/

2.3

Características de BDBMs

2.3.1 Volume de Dados

O volume de dados é um ponto importante na análise de BDBM. Este vem aumentando rapidamente com o passar do tempo devido ao avanço tecnológico e do grande interesse no genoma. Hoje o GenBank armazena algo em torno de 77 bilhões de bases, sendo a espécie humana a mais seqüenciada (Tabela 2.1).

Esta quantidade de dados se origina do comprimento do genoma de uma espécie, que é consideravelmente grande e, ainda, da necessidade de armazenar genomas de vários seres e muitas informações relacionadas a eles.

2.3.2 Consistência da Informação

Quanto à consistência das informações armazenadas, pode-se dividir os BDBM’s em dois tipos:

Os bancos de dados primários: Apresentam resultados de dados experimentais que são publicados com alguma interpretação, nos quais não há uma análise cuidadosa desses dados com relação aos outros publicados anteriormente. Esse é o caso, por exemplo, do GenBank, EMBL e PDB.

Os bancos de dados secundários: São aqueles nos quais há uma compilação e interpretação dos dados de entrada de forma que podem ser obtidos dados mais representativos e interessantes. Esses são os bancos de dados curados, como o UniProt.

Normalmente, as bases de dados secundárias são menores que as primárias devido a demora na compilação e interpretação dos dados, porém seus dados são menos sujeitos a erros (a taxa de erro de um banco de dados primário é estimada em 1 a cada 10.000 bases (BAXEVANIS & OUELLETTE, 2001)).

8

DNA que foi colocado num chip com uma ordem de pontos microscópicos, cada um representa um gene. mRNA que codifica para proteínas conhecidas é adicionado e cruzará com o DNA complementar no chip. O resultado será um sinal fluorescente que indica que o gene específico foi ativado.

(28)

Espécie Tamanho genoma haplóide

Bases Entradas

Homo sapiens 3.310.000.000 12.649.896.894 11.103.627

Mus musculus (rato) 3.300.000.000 8.191.906.517 6.900.531

Rattus norvegicus (ratazana) 2.900.000.000 5.748.815.391 1.268.979

Bos taurus (boi) 3.600.000.000 3.693.385.829 1.856.645

Zea mays (milho) 5.000.000.000 3.315.419.379 2.837.151

Danio rerio (peixe zebra) 1.900.000.000 2.746.510.155 1.550.369

Oryza sativa (arroz) 400.000.000 1.514.103.647 1.170.719

Sus scrofa ND 1.424.141.849 1.286.174

Strongylocentrotus purpuratus ND 1.352.195.825 1.401.024

Xenopus tropicalis ND 1.125.373.076 1.174.272

Pan troglodytes (chimpanzé) ND 934.298.402 211.999

Drosophila melanogaster

(mosca de fruta)

180.000.000 889.539.202 719.188

Arabidopsis thaliana (um

vegetal)

125.000.000 879.228.118 1.949.245

Gallus gallus (galinha) ND 855.887.010 802.323

Vitis vinifera ND 810.255.328 497.528

Macaca mulatta (macaco

Rhesus)

ND 688.075.766 75.710

Canislupus familiaris ND 685.124.541 1.220.121

Sorghum bicolor ND 657.600.968 1.006.205

Triticum aestivum (trigo) ND 647.624.511 1.101.600

Medicago truncatula (um tipo

de leguminosa)

ND 514.485.883 401.462

Tabela 2.1- O número de bases no GenBank dos 20 organismos mais seqüenciados (Junho/2007)

2.3.3 Informações Armazenadas

Os bancos de dados aplicados à biologia molecular podem ser classificados de acordo com as informações biológicas que armazenam (ASHBURNER et al., 1997), que são, principalmente, de:

seqüências de nucleotídeos e suas anotações;

seqüências de proteínas e suas anotações;

proteínas e informações sobre as respectivas funções;

estruturas secundárias ou terciárias das moléculas de proteínas;

taxonomia (classificações dos organismos vivos);

(29)

Seqüências de nucleotídeos (SEIBEL et al., 2000)

Os bancos de seqüências de nucleotídeos armazenam a seqüência de nucleotídeos e anotações contendo dados de características biológicas relevantes sobre elas, que são, normalmente:

organismo a que pertence;

sítios das seqüências que codificam moléculas de proteínas;

função;

fenótipo (características aparentes);

links para outros bancos de dados contendo informações biológicas sobre a

seqüência.

Embora exista um controle sobre erros comuns detectados na submissão de seqüências ao banco, a qualidade da informação é do pesquisador que submeteu a seqüência. Os laboratórios que submetem seqüências ao banco têm diferentes critérios sobre a qualidade da seqüência que está sendo enviada. Assim, redundâncias e inconsistências são inevitáveis. Os bancos de dados de nucleotídeos são, portanto, considerados primários, apresentando diversos erros.

As seqüências existentes nestes bancos podem estar incompletas, contaminadas e com erros oriundos do próprio seqüenciamento. Alguns administradores destes bancos estão tentando resolver o problema de redundância, apesar da dificuldade de inferir que uma seqüência é origem de outra.

Os principais bancos de dados genéricos que armazenam seqüências de nucleotídeos são aqueles que compõem o INSDC. Estes bancos armazenam também informações sobre partes das seqüências que codificam moléculas de proteínas ou de RNA, além de anotações que contêm outras informações biológicas relevantes.

Além destes, outros bancos de dados específicos de um certo organismo também armazenam informações sobre seqüências, como por exemplo o ACeDB e toda a família de bancos de dados que é baseada na sua arquitetura.

Outros bancos de dados especializados (em determinadas células ou componentes, em mutações, em funções gênicas, entre outros) também armazenam informações de seqüências, como por exemplo o Mitomap.

(30)

Seqüências de proteínas

Os bancos de dados de seqüências de proteínas armazenam a seqüência e informações sobre a função da proteína no organismo. Estes bancos de dados têm também como característica a redundância e inconsistência das informações sobre as seqüências armazenadas.

O principal banco de seqüências de proteínas é o UniProt . Existe maior cuidado com a qualidade da informação que é incluída neste banco, seu conteúdo é não redundante e inclui extensas anotações sobre as seqüências (banco de dados secundário). No entanto, este cuidado exige um intervalo de tempo entre a inclusão de uma seqüência nos bancos de nucleotídeos e sua correspondente tradução para o UniProt. Alguns bancos de nucleotídeos também armazenam seqüências de proteínas, como o Genbank. Espécie Seqüências Homo sapiens 16.602 Mus musculus 13.316 Saccharomyces cerevisiae 6.163 Rattus norvegicus 6.199 Arabidopsis thaliana 5.706 Escherichia coli 4.930 Bos taurus 4.025 Schizosaccharomyces pombe 3.188 Caenorhabditis elegans 3.032 Bacillus subtilis 2.835

Tabela 2.2 - Número de seqüências dos 10 mais abundantes organismos no UniProt (Maio/2007)

Proteínas

Os bancos de dados de proteínas são especializados. O banco ENZYME, por exemplo, armazena informações sobre a nomenclatura das enzimas. O banco PROSITE, por sua vez, armazena sítios funcionais das proteínas. Existem outros bancos de dados de grupamentos de proteínas segundo diferentes critérios/algoritmos, como por exemplo o banco BLOCKS.

Os bancos de dados de seqüências de proteínas contêm links para as bases de dados de proteínas, que têm anotações mais completas sobre cada uma.

(31)

Estruturas de proteínas

Estes bancos de dados armazenam as estruturas secundárias e/ou terciárias das proteínas. O principal banco de estruturas é o PDB, que armazena informações estruturais das moléculas de proteínas. Não existe uma grande quantidade de informações de estruturas armazenadas nesses bancos de dados, devido ao difícil processo de obtenção de dados, feito via cristalografia ou ressonância magnética nuclear.

Taxonomia (SEIBEL et al., 2000)

Os bancos de dados de taxonomia são bastante discutidos, uma vez que não existe consenso entre os especialistas sobre as classificações ali contidas. Os exemplos destes bancos de dados são: Species 2000, International Organization for Plant Information, Integrated Taxonomic Information System, The Tree of Life Project, entre outros. Cabe ressaltar que o GenBank mantém informações de taxonomia, que são definidas e mantidas por um grupo de especialistas independente.

Publicações (SEIBEL et al., 2000)

Os bancos de dados de publicações armazenam informações sobre a literatura científica de diversas áreas. Na área da biologia molecular, o mais importante repositório de tais informações é o MEDLINE, agora denominado PUBMED, que pode ser acessado via NCBI, através de uma interface denominada Entrez. O correspondente ao MEDLINE para a área agrícola é o AGRICOLA.

2.3.4 Formatos dos Bancos de Dados

Outra característica dos BDBM’s é a variedade de formatos de armazenamento das informações. Não existe ainda um formato padrão para estas bases de dados, portanto, cada centro segue seu próprio formato ou em alguns casos utilizam banco de dados comerciais para este fim, por exemplo, o GSDB (Sybase).

Além do formato de armazenamento dos dados nas bases públicas, muitos dos aplicativos utilizados em biologia molecular têm formato próprio.

(32)

Os principais formatos encontrados são:

Seqüências em formato plano

As seqüências armazenadas neste formato contém apenas caracteres IUPAC (Tabela 2.3) e espaços. Um arquivo no formato plano pode conter apenas uma seqüência.

Um exemplo de uma seqüência armazenada no formato plano é demonstrada a seguir: AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT TTCAACAATGGATCTCTTGGTTCCGGC Caractere Descrição A Adenina C Citosina G Guanina T Timina U Uracil R G A (purinas) Y T C (pirimidinas) K G T (keto) M A C (amino) S G C W A T B G T C D G A T H A C T V G C A N A G C T (qualquer)

Tabela 2.3 – Caracteres definidos pela International Union of Pure and Applied

Chemistry (IUPAC)

EMBL

Um arquivo de seqüências no formato EMBL (utilizado no banco de dados EMBL) pode armazenar várias seqüências.

(33)

A entrada de uma seqüência começa com um identificador de linha (“ID”), seguido por anotações sobre esta seqüência. O início de uma seqüência é delimitado pelo marcador “SQ” e o final por duas barras (“//”). A seguir, observa-se um exemplo deste formato:

ID AA03518 standard; DNA; FUN; 237 BP. XX

AC U03518; XX

DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S DE rRNA and 5.8S rRNA genes, partial sequence.

XX

SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other;

aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 60 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 120 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 180 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 237 //

FASTA

Um arquivo de seqüências no formato FASTA pode conter mais de uma seqüência.

Uma seqüência neste formato começa com uma linha com a descrição, seguida por várias linhas com seqüência de dados. A linha de descrição deve começar com o caractere maior que (“>”) na primeira coluna. Normalmente, o número de seqüências por linha neste arquivo é de 60 (sessenta). Exemplo do formato FASTA:

> seq1 This is the description of my first sequence.

AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA CGACGTAGATGCTAGCTGACTCGATGC

> seq2 This is the description of my second sequence.

AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA CGACGTAGATGCTAGCTGACTCGATGC

Este formato é utilizado pelos aplicativos da família FAST.

Genetics Computer Group (GCG)

Um arquivo de seqüências no formato GCG (utilizado pelo pacote de anotação GCG) contém apenas uma seqüência, começando com linhas de anotações. O início da seqüência é marcado por uma linha terminada com dois pontos (“..”). Esta linha também contém um identificador da seqüência, o tamanho da seqüência e um checksum.

(34)

Exemplo de formato GCG:

ID AA03518 standard; DNA; FUN; 237 BP. XX

AC U03518; XX

DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S DE rRNA and 5.8S rRNA genes, partial sequence.

XX

SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other; AA03518 Length: 237 Check: 4514 ..

1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc

GenBank

Um arquivo no formato GenBank pode conter várias seqüências. Uma seqüência no formato GenBank começa com uma linha contendo a palavra “LOCUS” e um número para a anotação. O começo da seqüência é marcado por uma linha contendo a palavra “ORIGIN” e o fim é marcado por duas barras (“//”). Os outros campos deste formato serão explicados na seção 2.4. Exemplo de formato GenBank:

LOCUS AAU03518 237 bp DNA PLN 04-FEB-1995 DEFINITION Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence.

ACCESSION U03518

BASE COUNT 41 a 77 c 67 g 52 t ORIGIN

1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc

//

IntelliGenetics (IG)

Um arquivo de seqüências no formato IG (utilizado pelo pacote multifuncional IG Suite) pode conter várias seqüências, cada uma contendo um conjunto de linhas de comentários começando com ponto e vírgula (“;”), uma linha com o nome da seqüência (que não pode conter espaços) e a

(35)

seqüência que é terminada com os caracteres “1”(linear) e “2” (seqüências circulares). Exemplo do formato IG:

; comment ; comment U03518 AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT TTCAACAATGGATCTCTTGGTTCCGGC1

Clustal

O formato de arquivo Clustal contém a palavra “CLUSTAL” no início. Este formato aceita a apresentação das seqüências de forma intercalada ou seqüencial. Exemplo do formato Clustal (intercalado):

CLUSTAL W (1.74) multiple sequence alignment

seq1 ---KSKERYKDENGGNYFQLREDWWDANRETVWKAITCNA seq2 ---YEGLTTANGXKEYYQDKNGGNFFKLREDWWTANRETVWKAITCGA seq3 ----KRIYKKIFKEIHSGLSTKNGVKDRYQN-DGDNYFQLREDWWTANRSTVWKALTCSD seq4 ---SQRHYKD-DGGNYFQLREDWWTANRHTVWEAITCSA seq5 ---NVAALKTRYEK-DGQNFYQLREDWWTANRATIWEAITCSA seq6 ---FSKNIX--QIEELQDEWLLEARYKD--TDNYYELREHWWTENRHTVWEALTCEA seq7 ---KELWEALTCSR seq1 --GGGKYFRNTCDG--GQNPTETQNNCRCIG---ATVPTYFDYVPQYLRWSDE seq2 P-GDASYFHATCDSGDGRGGAQAPHKCRCDG---ANVVPTYFDYVPQFLRWPEE seq3 KLSNASYFRATC--SDGQSGAQANNYCRCNGDKPDDDKP-NTDPPTYFDYVPQYLRWSEE seq4 DKGNA-YFRRTCNSADGKSQSQARNQCRC---KDENGKN-ADQVPTYFDYVPQYLRWSEE seq5 DKGNA-YFRATCNSADGKSQSQARNQCRC---KDENGXN-ADQVPTYFDYVPQYLRWSEE seq6 P-GNAQYFRNACS----EGKTATKGKCRCISGDP---PTYFDYVPQYLRWSEE seq7 P-KGANYFVYKLD---RPKFSSDRCGHNYNGDP---LTNLDYVPQYLRWSDE

Este formato é utilizado pelos programas da família Clustal de alinhamento múltiplo.

2.4

GenBank

O GenBank é, hoje, o maior e mais importante repositório de seqüências de nucleotídeos, representando mais de 105.000 espécies. É usado como referência no sentido de verificar se uma dada seqüência já está catalogada.

O histórico do volume de seqüências no GenBank demonstra que o número de seqüências e bases armazenadas, cresce exponencialmente (Figura 2.1). Historicamente, o GenBank dobra de tamanho a cada 18 meses, mas esta taxa vem acelerando para cada

(36)

14 meses, isto ocorre, principalmente, devido à grande quantidade de dados vindos de

Expressed Sequence Tags (EST’s).

Crescim ento do GenBank

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 1982 1991 1994 1998 1999 2000 2002 2003 2005 2006 P a re s d e B a s e s ( e m m il h õ e s )

Figura 2.1 - Crescimento do GenBank

O NCBI utiliza estruturas ASN.1 (INTERNATIONAL ORGANIZATION FOR STANDARDIZATION, 1987) para armazenar as informações no GenBank. Tais estruturas implementam um tipo de modelo de dados semi-estruturado, bastante útil para troca de informações com a comunidade científica. O GenBank, também, distribui suas informações em arquivos flat-file num formato próprio (GenBank flat-file - GBFF) e no formato FASTA. O XML, atualmente, é outro formato disponível para acesso dos dados do GenBank (através de um aplicativo que faz a conversão ASN.1  XML).

2.4.1 Esquema

O Genbank armazena seqüências de nucleotídeos e proteínas, além de informações biológicas importantes sobre cada seqüência, por exemplo: o nome científico, a taxonomia do organismo de origem, e um conjunto de anotações de relevância biológica. Um registro do GenBank é identificado pelo atributo número de acesso. A seguir é apresentado um exemplo de registro do GenBank no formato GBFF. Cada registro possui campos que definem a informação que está armazenada.

LOCUS AF458979 32057 bp DNA PLN 02-APR-2002 DEFINITION Saccharomyces cerevisiae strain YJM269, partial genome. ACCESSION AF458979

VERSION AF458979.1 GI:19880933 KEYWORDS .

(37)

SOURCE baker's yeast.

ORGANISM Saccharomyces cerevisiae

Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.

REFERENCE 1 (bases 1 to 32057)

AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I., Oefner,P.J., McCusker,J.H. and Davis,R.W.

TITLE Dissecting the architecture of a quantitative trait locus in yeast JOURNAL Nature 416 (6878), 326-330 (2002)

MEDLINE 21904897 PUBMED 11907579

REFERENCE 2 (bases 1 to 32057)

AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I., Oefner,P.J., McCusker,J.H. and Davis,R.W.

TITLE Direct Submission

JOURNAL Submitted (14-DEC-2001) Biochemistry, Stanford University, 789 Campus Drive West, Stanford, CA 94305, USA

FEATURES Location/Qualifiers source 1..32057 /organism="Saccharomyces cerevisiae" /strain="YJM269" /db_xref="taxon:4932" gene complement(<1..1836) /gene="YNL095C"

/note="compared to Saccharomyces cerevisiae S288c genome" /evidence=not_experimental

ORIGIN

1 cactccattt ggattggcgc agttgtttct ggcggcgtaa aactggcggt gaaatatata 61 agggtagtca tcgttggcaa gttccagctg attgctataa caaatagtag cattctatca 121 tcttgccaat taacccatcc agctttcact aaccgatcac accataggac accaaaaatt 181 ggcatgacac attgtctcaa aatgacgagt gtcacagcgg ctttccaaaa tccaggataa 241 aggttgccaa tctttaatct tcctaaagtt gctcctaata atatcaaccc aaatggaaca 301 catgcggcac cgacataacc tgtaaaatcc atgaaaaagc ttaatggtgg tgcattgtca 361 ggagcttggc ttatgtgagg agtattagcg gtagtcacga acaaagcctt gacccatggg 421 ataaatgcaa cagttagggc gatgatcacg gccatagagc acggtctcaa acaattcttt 481 aggaaaaaca caagtaatgg agttaatgaa aattttctca tccactgtgg taatgattcg 541 ccggatgttt caatatcctt tttacttaca gtggcatctg atgttaagat cctggttagg 601 ttagcagttt ttatagtctg taaagtggaa tttgagctaa ttgaatgcac atcattcata 661 tcagcgccgc gtaaactgga attcctcctt tgatgaccat actggtcaac gttggagtac

(38)

721 tctctgataa gatggtgtat attttgagaa ggtaatgcac gcatatcaat ggagcggata 781 ggttccaatg ccgccataga catatttttt gggcattttt catctaaaca gttctcttct 841 aggagtgtgg tagtattgta agctctcggc tggctcgcgg ttctacgtgc tctcatagta 901 tctatgctac tctcataact ctctgacgta ttataagaat gtattgttga agcagatgat 961 tggctatcta atggatttga accacgagtt gcctgtgact cttcgctttg agtgcacgca 1021 atagtatttc ttgccttcac ctgaactggt tttgtaatct ttgaattcga agaagtgtct 1081 ggtagtgaca ggggagctat actatttgtt gatctccttg aaattggtgg tacgtctgcg 1141 ttttcaccct ttgtacctat agcttcagtg agactatcgc gagcggtgta cttattgttg 1201 aaaagctgtt gttcgtttga gaagaaacgc tcgctagtat ctgtattagt tgtgtttgca 1261 cttactgcgg gctgtgtctt tgtcgtttct gaaaccctaa cggcgctttc atcgtcgttg 1321 tactcgaaat cgctttcaat cagtcgaaac cccccccaaa ttgaaaatgc aaattagaaa 1381 cattgtcaga aatataatga cgttagccac acctttgtta ccttcttctt ccgaaaatac 1441 aagcccttgg tccatagatt gtaaatatgc aattggtaaa tcacttatat ttggaaacat 1501 accaccggca agaataccac cgtaccattg tttaggaaca ggcaggaata gcctaacaac 1561 gtatgcaaaa aagaacccag aaccaaatat taggagggca gacagacaga taattcccac 1621 agatttgatg tctttatctt caatattagc gacaatcttg ttgaatgaca gacagggtag 1681 taaaactgtt agcacgatat cagaaataat tcttgttgct tcaaccgtaa gaattcccat 1741 tttagccatc agaaagccga ctcctataat caaataaatc ttgattatcg gcttaactga 1801 cacccatatc gcttgaccca gagtaatgtg caccatctga tgaaaatttg aggtttcaat

//

Os campos referem-se às seguintes informações biológicas: (GENBANK, 2006)

Cabeçalho

O cabeçalho é a primeira linha de um arquivo GBFF (Locus line) e contém as seguintes informações:

 Locus Name: nome curto escolhido para sugerir a definição da seqüência (só

aceita letras maiúsculas ou números e não pode ultrapassar 10 caracteres)

 Tamanho da seqüência, expresso em pares de bases (bp)

 Tipo da molécula. Os tipos aceitos são: DNA, RNA, tRNA, rRNA, mRNA e uRNA.

 Código da divisão: Três letras que colocam esta a seqüência num dos grupos (divisões) do GenBank. As divisões existentes estão descritas na

 Tabela 2.4.

 Data que o registro se tornou público.

No exemplo anterior temos as seguintes informações:

LOCUS AF458979 32057 bp DNA PLN 02-APR-2002

 Locus Name: AF458979

 Tamanho da seqüência: 32057 bp

 Tipo de molécula: DNA

 Divisão: PLN (Seqüências de plantas, fungos ou algas)

(39)

Tabela 2.4 – Divisões do GenBank (GENBANK, 2007) Abreviação Divisão

PRI Seqüências de primatas ROD Seqüências de roedores

MAM Seqüências de outros mamíferos VRT Seqüências de outros vertebrados

INV Seqüências de invertebrados

PLN Seqüências de plantas, fungos ou algas BCT Seqüências de bactérias

VRL Seqüências de vírus

PHG Seqüências de bacteriófagos SYN Seqüências sintéticas

UNA Seqüências não anotadas EST Seqüências EST

PAT Seqüências patenteadas

STS Seqüências STS (Sequence Tagged Sites) GSS Seqüências GSS (Genome Survey Sequences) HTG Seqüências HTGS (High Throughput Genomic

Sequences)

HTC Seqüências HTC (High Throughput cDNA Sequences)

Definition

Nesta linha temos uma descrição concisa da informação. No caso anterior temos o genoma parcial da Saccharomyces cerevisiae.

Accession

Número de acesso primário, um valor único e imutável atribuído para cada seqüência.

Version line

A version line contém:

 Accession.version Indica a versão do registro. Toda a vez que um registro é

(40)

 GI (geninfo identifier): Identificador da seqüência. Toda a vez que a seqüência é modificada este número muda.

Keywords

Palavras-chave associadas ao gene ou a outras informações sobre o registro.

Segment

Informações sobre a ordem em que este registro aparece na série de seqüências descontínuas de uma mesma molécula.

O campo Source

Este campo consiste de duas partes:

 A primeira parte encontra-se depois do rótulo Source e contém o nome do organismo onde a seqüência foi encontrada.

 A segunda parte consiste de informações encontradas depois do rótulo

Organism. Ela possui o nome científico formal do organismo (gênero e

espécie, conforme catalogado) seguido por sua taxonomia.

Reference

Citações a todos os artigos que contêm dados sobre este registro. Ele é composto pelo número da referência e o local das bases na seqüência citada e por mais cinco partes:

 Authors: lista os autores na ordem em que eles aparecem no artigo citado.  Title: título da publicação.

 Journal: citação da literatura para o registro da seqüência. A palavra

´Unpublished´ aparecerá depois do rótulo secundário Journal se os dados não aparecerem na literatura científica, mas foram diretamente depositados no banco de dados. Para as seqüências publicadas a linha Journal contém a tese, a revista, ou o livro, incluindo o ano de publicação.

 Medline: identificador único da National Library of Medicine's Medline para

a citação (se conhecida).

 Remark: comentário que especifica a relevância da citação do registro.

Comment

Referências para outras seqüências, comparações com outras coleções, anotações de modificações no nome do Locus e outras observações.

(41)

Tabela que contém características encontradas em determinados sítios da seqüência. No endereço http://www.ncbi.nlm.nih.gov/collab/FT/index.html pode ser encontrada a lista de características aceitas.

No exemplo anterior, temos as características (features) “gene” e “source”. A característica source é a única obrigatória em todos os registros do GenBank, e define a origem dos dados. A característica gene indica onde se encontra um gene e como ele foi encontrado.

Base Count

Sumário do número de ocorrências de cada código base na seqüência.

Origin

O campo origin pode estar em branco ou pode especificar como a primeira base da seqüência relatada está localizada dentro do genoma.

Após este campo são informadas as seqüências na direção 5’ 3’, tendo cada linha 60 bases, divididas em grupos de 10 bases.

2.4.2 Outras informações armazenadas

O Genbank armazena diversas informações além das seqüências de nucleotídeos, tais como:

representação de seqüências de proteínas, a partir das de nucleotídeos que estão armazenadas no banco.

dados de genes, observados nas seqüências, que estão armazenados na divisão EST (Expressed Sequence Tags).

informações biológicas relevantes sobre uma seqüência (e não apenas genes), que estão armazenados na divisão STS (Sequence Tagged Site).

informações aleatórias de seqüências genômicas, que estão armazenadas na divisão GSS (Genome Survey Sequence).

registros genômicos que foram obtidos através de seqüenciamento em larga

escala não finalizados, que estão armazenados na divisão HTG (HighTthroughput Genomic Sequence). A divisão HTG divide os dados em quatro fases (0 a 3) dependendo da qualidade dos dados. Estes registros, quando finalizados (fase 3), são transferidos para a divisão apropriada do organismo.

registros de dados não finalizados gerados por grandes processamentos de cDNA, que estão armazenados na divisão HTC (high-throughout cDNA).

(42)

informações de mutações de genes, na divisão SNP9 (Single Nucleotide

Polimorphisms).

taxonomia.

estrutura tridimensional de proteínas

links para a literatura (MEDLINE).

2.4.3 A construção do Banco de Dados

Os dados para o GenBank vêm de duas origens:

Autor individual que submete os dados diretamente para uma base de dados;

Submissões de centros de seqüenciamento nos formatos ESTs, STSs, GSSs, HTCs ou grandes registros genômicos (normalmente seqüências de cosmídios10, BACs11 ou YACs12).

Virtualmente, todos os registros entram no GenBank diretamente por submissão eletrônica, com a maioria dos autores utilizando dois programas:

BankIt

O Bankit possibilita a submissão de seqüências pela Web através do endereço http://www.ncbi.nlm.nih.gov/BankIt. Esta ferramenta é responsável por aproximadamente 35% de todos os dados recebidos pelo GenBank.

Com o BankIt o autor entra a seqüência diretamente por um formulário Internet, editando e adicionando anotações biológicas.

Este programa tem a capacidade de validar as submissões buscando os erros mais comuns e contaminações dos vetores, através de uma variante do BLAST chamada Vecscreen.

Sequin

O Sequin é um programa “stand-alone” multiplataforma desenvolvido pelo NCBI, que possibilita a submissão de seqüências através de uma conexão online com os servidores do NCBI.

Esta ferramenta manipula seqüências simples ou longas, para as quais o BankIt não é apropriado.

9 Um ponto de mutação em alguns indivíduos de uma população.

10 Elemento genético extra-cromossomial contendo genes específicos do bacteriofágo lambda. 11 Bacterial Artificial Chromosome – Cromossomos Artificiais de Bactérias

12

(43)

Este programa possui facilidades para edição de seqüências, colocação de anotações complexas, além de um conjunto de funções para validação dos dados. Esta ferramenta está disponível no endereço ftp://ftp.ncbi.nih.gov/sequin.

Além destes programas, o GenBank oferece procedimentos em batch para facilitar a submissão de seqüências em larga escala, como o “fa2htgs” (OUELLETTE et al., 1997).

2.4.4 Informações adicionais

O GenBank possui, aproximadamente, 800 organismos completamente seqüenciados, seus dados e toda a base de dados podem ser obtidos no endereço ftp://ftp.ncbi.nih.gov. No formato GBFF sem compressão estes dados estão com aproximadamente 283 GB. (GENBANK, 2007)

Referências

Documentos relacionados

Objetivou-se com este estudo avaliar a qualidade de leite pasteurizado com inspeção estadual pela pesquisa de estafilococos coagulase positiva, sua

Os dados referentes aos sentimentos dos acadêmicos de enfermagem durante a realização do banho de leito, a preparação destes para a realização, a atribuição

Cândida Fonseca Duração e local: 11/09/2017 a 03/11/2017 – Hospital São Francisco Xavier Objectivos e actividades desenvolvidas: Os meus objectivos centraram-se na

Esta dissertação pretende explicar o processo de implementação da Diretoria de Pessoal (DIPE) na Superintendência Regional de Ensino de Ubá (SRE/Ubá) que conforme a

Tais orientações se pautaram em quatro ações básicas: apresentação dessa pesquisa à Secretaria de Educação de Juiz de Fora; reuniões pedagógicas simultâneas com

O capítulo I apresenta a política implantada pelo Choque de Gestão em Minas Gerais para a gestão do desempenho na Administração Pública estadual, descreve os tipos de

Esta ação consistirá em duas etapas. Este grupo deverá ser composto pela gestora, pelo pedagogo e ou coordenador pedagógico e um professor por disciplina

Com a mudança de gestão da SRE Ubá em 2015, o presidente do CME de 2012 e também Analista Educacional foi nomeado Diretor Educacional da SRE Ubá e o projeto começou a ganhar