• Nenhum resultado encontrado

2 BANCO DE DADOS EM BIOLOGIA MOLECULAR (BDBM)

2.4.1 Esquema

O Genbank armazena seqüências de nucleotídeos e proteínas, além de informações biológicas importantes sobre cada seqüência, por exemplo: o nome científico, a taxonomia do organismo de origem, e um conjunto de anotações de relevância biológica. Um registro do GenBank é identificado pelo atributo número de acesso. A seguir é apresentado um exemplo de registro do GenBank no formato GBFF. Cada registro possui campos que definem a informação que está armazenada.

LOCUS AF458979 32057 bp DNA PLN 02-APR-2002 DEFINITION Saccharomyces cerevisiae strain YJM269, partial genome. ACCESSION AF458979

VERSION AF458979.1 GI:19880933 KEYWORDS .

SOURCE baker's yeast.

ORGANISM Saccharomyces cerevisiae

Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.

REFERENCE 1 (bases 1 to 32057)

AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I., Oefner,P.J., McCusker,J.H. and Davis,R.W.

TITLE Dissecting the architecture of a quantitative trait locus in yeast JOURNAL Nature 416 (6878), 326-330 (2002)

MEDLINE 21904897 PUBMED 11907579

REFERENCE 2 (bases 1 to 32057)

AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I., Oefner,P.J., McCusker,J.H. and Davis,R.W.

TITLE Direct Submission

JOURNAL Submitted (14-DEC-2001) Biochemistry, Stanford University, 789 Campus Drive West, Stanford, CA 94305, USA

FEATURES Location/Qualifiers source 1..32057 /organism="Saccharomyces cerevisiae" /strain="YJM269" /db_xref="taxon:4932" gene complement(<1..1836) /gene="YNL095C"

/note="compared to Saccharomyces cerevisiae S288c genome" /evidence=not_experimental

ORIGIN

1 cactccattt ggattggcgc agttgtttct ggcggcgtaa aactggcggt gaaatatata 61 agggtagtca tcgttggcaa gttccagctg attgctataa caaatagtag cattctatca 121 tcttgccaat taacccatcc agctttcact aaccgatcac accataggac accaaaaatt 181 ggcatgacac attgtctcaa aatgacgagt gtcacagcgg ctttccaaaa tccaggataa 241 aggttgccaa tctttaatct tcctaaagtt gctcctaata atatcaaccc aaatggaaca 301 catgcggcac cgacataacc tgtaaaatcc atgaaaaagc ttaatggtgg tgcattgtca 361 ggagcttggc ttatgtgagg agtattagcg gtagtcacga acaaagcctt gacccatggg 421 ataaatgcaa cagttagggc gatgatcacg gccatagagc acggtctcaa acaattcttt 481 aggaaaaaca caagtaatgg agttaatgaa aattttctca tccactgtgg taatgattcg 541 ccggatgttt caatatcctt tttacttaca gtggcatctg atgttaagat cctggttagg 601 ttagcagttt ttatagtctg taaagtggaa tttgagctaa ttgaatgcac atcattcata 661 tcagcgccgc gtaaactgga attcctcctt tgatgaccat actggtcaac gttggagtac

721 tctctgataa gatggtgtat attttgagaa ggtaatgcac gcatatcaat ggagcggata 781 ggttccaatg ccgccataga catatttttt gggcattttt catctaaaca gttctcttct 841 aggagtgtgg tagtattgta agctctcggc tggctcgcgg ttctacgtgc tctcatagta 901 tctatgctac tctcataact ctctgacgta ttataagaat gtattgttga agcagatgat 961 tggctatcta atggatttga accacgagtt gcctgtgact cttcgctttg agtgcacgca 1021 atagtatttc ttgccttcac ctgaactggt tttgtaatct ttgaattcga agaagtgtct 1081 ggtagtgaca ggggagctat actatttgtt gatctccttg aaattggtgg tacgtctgcg 1141 ttttcaccct ttgtacctat agcttcagtg agactatcgc gagcggtgta cttattgttg 1201 aaaagctgtt gttcgtttga gaagaaacgc tcgctagtat ctgtattagt tgtgtttgca 1261 cttactgcgg gctgtgtctt tgtcgtttct gaaaccctaa cggcgctttc atcgtcgttg 1321 tactcgaaat cgctttcaat cagtcgaaac cccccccaaa ttgaaaatgc aaattagaaa 1381 cattgtcaga aatataatga cgttagccac acctttgtta ccttcttctt ccgaaaatac 1441 aagcccttgg tccatagatt gtaaatatgc aattggtaaa tcacttatat ttggaaacat 1501 accaccggca agaataccac cgtaccattg tttaggaaca ggcaggaata gcctaacaac 1561 gtatgcaaaa aagaacccag aaccaaatat taggagggca gacagacaga taattcccac 1621 agatttgatg tctttatctt caatattagc gacaatcttg ttgaatgaca gacagggtag 1681 taaaactgtt agcacgatat cagaaataat tcttgttgct tcaaccgtaa gaattcccat 1741 tttagccatc agaaagccga ctcctataat caaataaatc ttgattatcg gcttaactga 1801 cacccatatc gcttgaccca gagtaatgtg caccatctga tgaaaatttg aggtttcaat

//

Os campos referem-se às seguintes informações biológicas: (GENBANK, 2006)

Cabeçalho

O cabeçalho é a primeira linha de um arquivo GBFF (Locus line) e contém as seguintes informações:

 Locus Name: nome curto escolhido para sugerir a definição da seqüência (só

aceita letras maiúsculas ou números e não pode ultrapassar 10 caracteres)

 Tamanho da seqüência, expresso em pares de bases (bp)

 Tipo da molécula. Os tipos aceitos são: DNA, RNA, tRNA, rRNA, mRNA e uRNA.

 Código da divisão: Três letras que colocam esta a seqüência num dos grupos (divisões) do GenBank. As divisões existentes estão descritas na

 Tabela 2.4.

 Data que o registro se tornou público.

No exemplo anterior temos as seguintes informações:

LOCUS AF458979 32057 bp DNA PLN 02-APR-2002

 Locus Name: AF458979

 Tamanho da seqüência: 32057 bp

 Tipo de molécula: DNA

 Divisão: PLN (Seqüências de plantas, fungos ou algas)

Tabela 2.4 – Divisões do GenBank (GENBANK, 2007) Abreviação Divisão

PRI Seqüências de primatas ROD Seqüências de roedores

MAM Seqüências de outros mamíferos VRT Seqüências de outros vertebrados

INV Seqüências de invertebrados

PLN Seqüências de plantas, fungos ou algas BCT Seqüências de bactérias

VRL Seqüências de vírus

PHG Seqüências de bacteriófagos SYN Seqüências sintéticas

UNA Seqüências não anotadas EST Seqüências EST

PAT Seqüências patenteadas

STS Seqüências STS (Sequence Tagged Sites) GSS Seqüências GSS (Genome Survey Sequences) HTG Seqüências HTGS (High Throughput Genomic

Sequences)

HTC Seqüências HTC (High Throughput cDNA Sequences)

Definition

Nesta linha temos uma descrição concisa da informação. No caso anterior temos o genoma parcial da Saccharomyces cerevisiae.

Accession

Número de acesso primário, um valor único e imutável atribuído para cada seqüência.

Version line

A version line contém:

 Accession.version Indica a versão do registro. Toda a vez que um registro é

 GI (geninfo identifier): Identificador da seqüência. Toda a vez que a seqüência é modificada este número muda.

Keywords

Palavras-chave associadas ao gene ou a outras informações sobre o registro.

Segment

Informações sobre a ordem em que este registro aparece na série de seqüências descontínuas de uma mesma molécula.

O campo Source

Este campo consiste de duas partes:

 A primeira parte encontra-se depois do rótulo Source e contém o nome do organismo onde a seqüência foi encontrada.

 A segunda parte consiste de informações encontradas depois do rótulo

Organism. Ela possui o nome científico formal do organismo (gênero e

espécie, conforme catalogado) seguido por sua taxonomia.

Reference

Citações a todos os artigos que contêm dados sobre este registro. Ele é composto pelo número da referência e o local das bases na seqüência citada e por mais cinco partes:

 Authors: lista os autores na ordem em que eles aparecem no artigo citado.  Title: título da publicação.

 Journal: citação da literatura para o registro da seqüência. A palavra

´Unpublished´ aparecerá depois do rótulo secundário Journal se os dados não aparecerem na literatura científica, mas foram diretamente depositados no banco de dados. Para as seqüências publicadas a linha Journal contém a tese, a revista, ou o livro, incluindo o ano de publicação.

 Medline: identificador único da National Library of Medicine's Medline para

a citação (se conhecida).

 Remark: comentário que especifica a relevância da citação do registro.

Comment

Referências para outras seqüências, comparações com outras coleções, anotações de modificações no nome do Locus e outras observações.

Tabela que contém características encontradas em determinados sítios da seqüência. No endereço http://www.ncbi.nlm.nih.gov/collab/FT/index.html pode ser encontrada a lista de características aceitas.

No exemplo anterior, temos as características (features) “gene” e “source”. A característica source é a única obrigatória em todos os registros do GenBank, e define a origem dos dados. A característica gene indica onde se encontra um gene e como ele foi encontrado.

Base Count

Sumário do número de ocorrências de cada código base na seqüência.

Origin

O campo origin pode estar em branco ou pode especificar como a primeira base da seqüência relatada está localizada dentro do genoma.

Após este campo são informadas as seqüências na direção 5’ 3’, tendo cada linha 60 bases, divididas em grupos de 10 bases.

Documentos relacionados