2 BANCO DE DADOS EM BIOLOGIA MOLECULAR (BDBM)
2.4.1 Esquema
O Genbank armazena seqüências de nucleotídeos e proteínas, além de informações biológicas importantes sobre cada seqüência, por exemplo: o nome científico, a taxonomia do organismo de origem, e um conjunto de anotações de relevância biológica. Um registro do GenBank é identificado pelo atributo número de acesso. A seguir é apresentado um exemplo de registro do GenBank no formato GBFF. Cada registro possui campos que definem a informação que está armazenada.
LOCUS AF458979 32057 bp DNA PLN 02-APR-2002 DEFINITION Saccharomyces cerevisiae strain YJM269, partial genome. ACCESSION AF458979
VERSION AF458979.1 GI:19880933 KEYWORDS .
SOURCE baker's yeast.
ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 32057)
AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I., Oefner,P.J., McCusker,J.H. and Davis,R.W.
TITLE Dissecting the architecture of a quantitative trait locus in yeast JOURNAL Nature 416 (6878), 326-330 (2002)
MEDLINE 21904897 PUBMED 11907579
REFERENCE 2 (bases 1 to 32057)
AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I., Oefner,P.J., McCusker,J.H. and Davis,R.W.
TITLE Direct Submission
JOURNAL Submitted (14-DEC-2001) Biochemistry, Stanford University, 789 Campus Drive West, Stanford, CA 94305, USA
FEATURES Location/Qualifiers source 1..32057 /organism="Saccharomyces cerevisiae" /strain="YJM269" /db_xref="taxon:4932" gene complement(<1..1836) /gene="YNL095C"
/note="compared to Saccharomyces cerevisiae S288c genome" /evidence=not_experimental
ORIGIN
1 cactccattt ggattggcgc agttgtttct ggcggcgtaa aactggcggt gaaatatata 61 agggtagtca tcgttggcaa gttccagctg attgctataa caaatagtag cattctatca 121 tcttgccaat taacccatcc agctttcact aaccgatcac accataggac accaaaaatt 181 ggcatgacac attgtctcaa aatgacgagt gtcacagcgg ctttccaaaa tccaggataa 241 aggttgccaa tctttaatct tcctaaagtt gctcctaata atatcaaccc aaatggaaca 301 catgcggcac cgacataacc tgtaaaatcc atgaaaaagc ttaatggtgg tgcattgtca 361 ggagcttggc ttatgtgagg agtattagcg gtagtcacga acaaagcctt gacccatggg 421 ataaatgcaa cagttagggc gatgatcacg gccatagagc acggtctcaa acaattcttt 481 aggaaaaaca caagtaatgg agttaatgaa aattttctca tccactgtgg taatgattcg 541 ccggatgttt caatatcctt tttacttaca gtggcatctg atgttaagat cctggttagg 601 ttagcagttt ttatagtctg taaagtggaa tttgagctaa ttgaatgcac atcattcata 661 tcagcgccgc gtaaactgga attcctcctt tgatgaccat actggtcaac gttggagtac
721 tctctgataa gatggtgtat attttgagaa ggtaatgcac gcatatcaat ggagcggata 781 ggttccaatg ccgccataga catatttttt gggcattttt catctaaaca gttctcttct 841 aggagtgtgg tagtattgta agctctcggc tggctcgcgg ttctacgtgc tctcatagta 901 tctatgctac tctcataact ctctgacgta ttataagaat gtattgttga agcagatgat 961 tggctatcta atggatttga accacgagtt gcctgtgact cttcgctttg agtgcacgca 1021 atagtatttc ttgccttcac ctgaactggt tttgtaatct ttgaattcga agaagtgtct 1081 ggtagtgaca ggggagctat actatttgtt gatctccttg aaattggtgg tacgtctgcg 1141 ttttcaccct ttgtacctat agcttcagtg agactatcgc gagcggtgta cttattgttg 1201 aaaagctgtt gttcgtttga gaagaaacgc tcgctagtat ctgtattagt tgtgtttgca 1261 cttactgcgg gctgtgtctt tgtcgtttct gaaaccctaa cggcgctttc atcgtcgttg 1321 tactcgaaat cgctttcaat cagtcgaaac cccccccaaa ttgaaaatgc aaattagaaa 1381 cattgtcaga aatataatga cgttagccac acctttgtta ccttcttctt ccgaaaatac 1441 aagcccttgg tccatagatt gtaaatatgc aattggtaaa tcacttatat ttggaaacat 1501 accaccggca agaataccac cgtaccattg tttaggaaca ggcaggaata gcctaacaac 1561 gtatgcaaaa aagaacccag aaccaaatat taggagggca gacagacaga taattcccac 1621 agatttgatg tctttatctt caatattagc gacaatcttg ttgaatgaca gacagggtag 1681 taaaactgtt agcacgatat cagaaataat tcttgttgct tcaaccgtaa gaattcccat 1741 tttagccatc agaaagccga ctcctataat caaataaatc ttgattatcg gcttaactga 1801 cacccatatc gcttgaccca gagtaatgtg caccatctga tgaaaatttg aggtttcaat
//
Os campos referem-se às seguintes informações biológicas: (GENBANK, 2006)
•
CabeçalhoO cabeçalho é a primeira linha de um arquivo GBFF (Locus line) e contém as seguintes informações:
Locus Name: nome curto escolhido para sugerir a definição da seqüência (só
aceita letras maiúsculas ou números e não pode ultrapassar 10 caracteres)
Tamanho da seqüência, expresso em pares de bases (bp)
Tipo da molécula. Os tipos aceitos são: DNA, RNA, tRNA, rRNA, mRNA e uRNA.
Código da divisão: Três letras que colocam esta a seqüência num dos grupos (divisões) do GenBank. As divisões existentes estão descritas na
Tabela 2.4.
Data que o registro se tornou público.
No exemplo anterior temos as seguintes informações:
LOCUS AF458979 32057 bp DNA PLN 02-APR-2002
Locus Name: AF458979
Tamanho da seqüência: 32057 bp
Tipo de molécula: DNA
Divisão: PLN (Seqüências de plantas, fungos ou algas)
Tabela 2.4 – Divisões do GenBank (GENBANK, 2007) Abreviação Divisão
PRI Seqüências de primatas ROD Seqüências de roedores
MAM Seqüências de outros mamíferos VRT Seqüências de outros vertebrados
INV Seqüências de invertebrados
PLN Seqüências de plantas, fungos ou algas BCT Seqüências de bactérias
VRL Seqüências de vírus
PHG Seqüências de bacteriófagos SYN Seqüências sintéticas
UNA Seqüências não anotadas EST Seqüências EST
PAT Seqüências patenteadas
STS Seqüências STS (Sequence Tagged Sites) GSS Seqüências GSS (Genome Survey Sequences) HTG Seqüências HTGS (High Throughput Genomic
Sequences)
HTC Seqüências HTC (High Throughput cDNA Sequences)
•
DefinitionNesta linha temos uma descrição concisa da informação. No caso anterior temos o genoma parcial da Saccharomyces cerevisiae.
•
AccessionNúmero de acesso primário, um valor único e imutável atribuído para cada seqüência.
•
Version lineA version line contém:
Accession.version Indica a versão do registro. Toda a vez que um registro é
GI (geninfo identifier): Identificador da seqüência. Toda a vez que a seqüência é modificada este número muda.
•
KeywordsPalavras-chave associadas ao gene ou a outras informações sobre o registro.
•
SegmentInformações sobre a ordem em que este registro aparece na série de seqüências descontínuas de uma mesma molécula.
•
O campo SourceEste campo consiste de duas partes:
A primeira parte encontra-se depois do rótulo Source e contém o nome do organismo onde a seqüência foi encontrada.
A segunda parte consiste de informações encontradas depois do rótulo
Organism. Ela possui o nome científico formal do organismo (gênero e
espécie, conforme catalogado) seguido por sua taxonomia.
•
ReferenceCitações a todos os artigos que contêm dados sobre este registro. Ele é composto pelo número da referência e o local das bases na seqüência citada e por mais cinco partes:
Authors: lista os autores na ordem em que eles aparecem no artigo citado. Title: título da publicação.
Journal: citação da literatura para o registro da seqüência. A palavra
´Unpublished´ aparecerá depois do rótulo secundário Journal se os dados não aparecerem na literatura científica, mas foram diretamente depositados no banco de dados. Para as seqüências publicadas a linha Journal contém a tese, a revista, ou o livro, incluindo o ano de publicação.
Medline: identificador único da National Library of Medicine's Medline para
a citação (se conhecida).
Remark: comentário que especifica a relevância da citação do registro.
•
CommentReferências para outras seqüências, comparações com outras coleções, anotações de modificações no nome do Locus e outras observações.
Tabela que contém características encontradas em determinados sítios da seqüência. No endereço http://www.ncbi.nlm.nih.gov/collab/FT/index.html pode ser encontrada a lista de características aceitas.
No exemplo anterior, temos as características (features) “gene” e “source”. A característica source é a única obrigatória em todos os registros do GenBank, e define a origem dos dados. A característica gene indica onde se encontra um gene e como ele foi encontrado.
•
Base CountSumário do número de ocorrências de cada código base na seqüência.
•
OriginO campo origin pode estar em branco ou pode especificar como a primeira base da seqüência relatada está localizada dentro do genoma.
Após este campo são informadas as seqüências na direção 5’ 3’, tendo cada linha 60 bases, divididas em grupos de 10 bases.