Bancos de Dados Biológicos
CCM205 – Sistema de Bancos de Dados Ugo Henrique Pereira da Silva
Banco de Dados Cientificos –
Bancos de Dados Biológicos
Introdução
Conceitos fundamentais
DNA, RNA Proteína
Dogma Central da Biologia
Bancos de Dados de Sequências
Genbank, PDB , …
Considerações finais Referências
Introdução
A análise da expressão dos genes é de grande
interesse para as Ciências Biológicas.
Esse tipo de análise pode fornecer informações
importantes sobre as funções de uma célula, uma vez que as mudanças na fisiologia de um organismo são geralmente acompanhadas por mudancas nos padrões de expressão dos genes (Alberts et al., 1997).
Introdução
No início da década de 1970, Ben Hesper e
Paulien Hogeweg começaram a usar o termo "bioinformática" para a pesquisa que queriam fazer, definindo-o como ''o estudo dos processos computacionais nos sistemas bióticos'' (Hogeweg,.
Introdução
A pesquisa de similaridade em bancos de
dados seqüência de DNA e proteínas é um campo essencial na pesquisa genômica (MOUNT, 2001; WEBB-ROBERTSON et al., 2008).
O método fundamental para encontrar as
funções de DNA e seqüências de proteína é medir as semelhanças entre os dois seqüências.
Introdução
Existem muitos métodos para realizar uma
verificação inteira na bases de dados de seqüência de DNA para uma busca de similaridade.
Os métodos que são normalmente utilizados
são o algoritmo Smith-Waterman (Smith e Waterman, 1981) e BLAST (Altschul et al.,1990, 1997).
Introdução
O GenBank, banco de dados de seqüências
genéticas continha somente 15 milhões de
nucleotídeos em 1987, dobrou de tamanho nos 5 anos subseqüentes.
Em 1992 atingiu mais de 120 milhões
utilizando sequenciadores deDNA automáticos (ADAMS, et. Al, p. 4).
Conceitos Fundamentais
DNA - deoxyribonucleic acid
O ácido desoxirribonucleico: é um composto
orgânico cujas moléculas contêm as instruções genéticas que coordenam o desenvolvimento e funcionamento de todos os seres vivos e alguns vírus. O seu principal papel é armazenar as informações necessárias para a construção das proteínas e RNAs.
A estrutura doDNA foi descoberta conjuntamente
pelo norte-americano James Watson e pelo britânico Francis Crick em 7 de Março de 1953, o que lhes valeu o Prêmio Nobel de Fisiologia/Medicina em 1962, juntamente com Maurice Wilkins.
Conceitos Fundamentais
DNA - deoxyribonucleic acid
Açucares
Bases nitrogenadas
Adenina (A), Guanina (G) - (Purinas)
Timina (T), Citosina (C) - (Pirimidinas)
Grupo fosfato
Uma sequência de DNA é formada por dupla
Conceitos Fundamentais
Conceitos Fundamentais
RNA - ribonucleic acid
A composição do RNA é muito semelhante ao do
DNA (ácido desoxirribonucleico) contudo apresenta algumas diferenças:é formado por uma cadeia simples de nucleotídeos, e não uma de dupla hélice como o DNA;
O RNA tem o açúcar ribose em seus nucleotídeos
em vez da desoxirribose encontrada no DNA.
as bases adenina (A), guanina (G), citosina (C) e
Conceitos Fundamentais
Conceitos Fundamentais
Proteína
são compostos de alto peso molecular;
sintetizadas pelos organismos vivos através da
condensação de um grande número de moléculas de alfa-aminoácidos, através de ligações denominadas ligações peptídicas;
Uma proteína é um conjunto de no minimo 20
aminoácidos, mas sabemos que uma proteína possui muito mais que essa quantidade, sendo os conjuntos menores denominados Polipeptídeos.
Conceitos Fundamentais
Conceitos Fundamentais
Bancos de Dados Biológicos
Os bancos de dados envolvendo seqüências
de nucleotídeos, de aminoácidos ou estruturas de proteínas podem ser classificados em bancos de seqüências primários e secundários.
Os primeiros são formados pela deposição
direta de seqüências de nucleotídeos, aminoácidos ou estruturas protéicas, sem qualquer processamento ou análise.
Bancos de Dados Biológicos
Os principais bancos de dados primários são o
GenBank, o EBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). Os três primeiros bancos são membros do INSDC (International Nucleotide Sequence Database Colaboration) e cada um desses centros possibilita a submissão individual de seqüências de DNA.
Trocam informações entre si diariamente, de
Bancos de Dados Biológicos
Com o crescente número de dados biológicos
que vem sendo gerados, vários bancos de dados têm surgido e anualmente a revista Nucleic Acids Research database publica uma lista atualizada com a classificação de todos os bancos de dados biológicos disponíveis.
Genbank
banco de dados público de seqüências de
nucleotídeos e apoio bibliográfico e anotação biológica, criado e distribuído pela National Center for Biotechnology Information (NCBI), uma divisão da National Library of Medicine (NLM);
Construido basicamente a partir da submissão
de dados da seqüência de autores e da maior parte de submissão de expressed sequence tag (EST), genome survey sequences (GSS), e
Genbank
Há aproximadamente 126.551.501.141 bases
em 135.440.924 registros seqüência na divisão tradicional, 191.401.393.188 bases em 62.715.288 registros seqüência na divisão WGS em abril de 2011.
Genbank
Sequência baseada em taxonomia
Colaboração com EMBL e DDBJ e curadorias
externas, o que necessita de padrão para troca de dados
Genbank
Adoção de uma Feature Table
O objetivo geral do design da tabela é fornecer um extenso
vocabulário para descrever características de uma estrutura flexível para manipulá-los.
A documentação representa a regras comuns que permitem
que as três bases de dados para troca de dados em uma base diária.A gama de recursos para ser representado é diversificado, incluindo as regiões que:
Executar uma função biológica, Afetam ou são o
resultado da expressão de uma função biológica, Interagir com outras moléculas, Afetam a replicação de uma seqüência, Afetam ou são o resultado de recombinação de seqüências diferentes, são uma unidade reconhecível repetida,te m estrutura secundária ou terciária, variação de exposição, ou que tenham sido revistos ou corrigidos
Genbank
Feature table format (EMBL):
Feature table format example (EMBL): FT source 1..1859 FT /db_xref="taxon:3899" FT /organism="Trifolium repens" FT /tissue_type="leaves" FT /clone_lib="lambda gt10" FT /clone="TRE361" FT /mol_type="genomic DNA" FT CDS 14..1495 FT /db_xref="MENDEL:11000" FT /db_xref="UniProtKB/Swiss-Prot:P26204" FT /note="non-cyanogenic" FT /EC_number="3.2.1.21" FT /product="beta-glucosidase" FT /protein_id="CAA40058.1" FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSR... ---+---+---+---+---+---+---+---1 ---+---+---+---+---+---+---+---10 20 30 40 50 60 70 79
Genbank
Feature table format (Genbank):
Feature table format example (GenBank): source 1..8959 /organism="Homo sapiens" /db_xref="taxon:9606" /mol_type="genomic DNA" gene 212..8668 /gene="NF1" CDS 212..8668 /gene="NF1" /note="putative" /codon_start=1 /product="GAP-related protein" /protein_id="AAA59924.1" /translation="MAAHRPVEWVQAVVSRFDEQLPIKTGQQNTHTKVSTE... ---+---+---+---+---+---+---+---1 ---+---+---+---+---+---+---+---10 20 30 40 50 60 70 79
Genbank
Feature table format (DDBJ):
Feature table format example (DDBJ): source 1..2136 /clone="pK28" /organism="Rattus norvegicus" /strain="Sprague-Dawley" /tissue_type="kidney" /mol_type="genomic DNA" mRNA 19..2128 CDS 31..1212 /codon_start=1
/function="Dual specificity protein tyrosine/threonine kinase"
/product="MAP kinase kinase" /protein_id="BAA02603.1"
/translation="MPKKKPTPIQLNPAPDGSAVNGTSSAETNLEALQKKL... ---+---+---+---+---+---+---+---1 ---+---+---+---+---+---+---+---10 20 30 40 50 60 70 79
Genbank
Divisões e registros
Cada entrada inclui uma concisa descrição da sequência, o
nome cientifico e taxonomia do organismo de origem, referencias bibliográficas e uma feature table por áreas de importancia biológica;
Os arquivos são particionados em divisões que
correspondem a grupos taxonômicos como:
Bactérias (BCT) , vírus(VRL), primatas (PRI) e
roedores (ROD), expressed seqüência tag (EST), pesquisa do genoma (GSS),
genômica de alto rendimento (HTG), cDNA de
alto rendimento (HTC) e seqüências da amostra ambientais (ENV)
Genbank
Divisões e registros
the BCT division is now composed of 72 files (+4)
- the CON division is now composed of 149 files (+1)
- the ENV division is now composed of 40 files (-1)
- the EST division is now composed of 445 files (+10)
- the GSS division is now composed of 247 files (+10)
- the INV division is now composed of 30 files (+1)
- the PAT division is now composed of 164 files (+23)
- the PLN division is now composed of 48 files (+2)
Genbank
Divisões e registros
Cada um destes arquivos tem o mesmo formato e é
composto por duas partes:
informações de cabeçalho e seqüência de
Genbank
Recuperação de Dados
Os registros de seqüência no GenBank são acessíveis
através do Entrez (www.ncbi.nlm.nih.gov / sites / gquery), uma flexível sistema de banco de dados de recuperação que abrange 35 bancos de dados biológicas. Bases de dados Entrez contêm DNA e proteínas seqüências derivadas do GenBank e outras fontes, mapas genomicos, população, conjunto de sequencias filogenéticas e ambiental, os dados de expressão gênica, taxonomia, informações de domínio de proteína e estruturas do banco de dados Modelagem Molecular MMDB.
Cada banco de dados está ligado a literatura científica via
PDB – Protein Data Bank
O Protein Data Bank (PDB) é o único
repositório mundial de informações sobre as estruturas 3D de grandes moléculas biológicas, incluindo proteínas e ácidos nucléicos.
Estas são as moléculas da vida que são
encontrados em todos os organismos, incluindo bactérias, fungos, plantas, moscas, outros animais e seres humanos.
PDB – Protein Data Bank
Compreender a forma de uma molécula ajuda
a entender como ele funciona. Esse conhecimento pode ser usado para ajudar a deduzir papel de uma estrutura na saúde humana e doenças, e no desenvolvimento de medicamentos.
As estruturas na faixa de arquivo a partir de
proteínas pequenas e pedaços de DNA de máquinas moleculares complexas como o ribossoma.
PDB – Protein Data Bank
restritos a coordenadas atômicas que são
substancialmente determinados por medições experimentais contendo amostra real de macromoleculas biológicas.
Atualmente, conjuntos produzidos por
cristalografia de raios X, NMR, microscopia eletrônica, difração de nêutrons, difração de pó, difração de fibra, e espalhamento de solução pode ser depositado no PDB, desde a molécula estudada atende ao requisito de tamanho mínimo.
PDB – Protein Data Bank
Para cada coordenada atômica e entrada
bibliográfica o arquivo consiste de registros com 80 caracteres:
Exemplo de registro:
HEADER : Date entered into Data Bank;
identification code
OBSLTE : Identifies entries which have been
replaced
Cols.1-6 HEADER
11 - 50 Functional classification of macromolecule
51 - 59 Date of deposition into Data Bank(i)
PDB – Protein Data Bank
Exemplo de registro:
Cols. 1 -6 OBSLTE
9 - 10 Continuation field (this field will be blank for the
first OBSLTE record in each entry and numbered 2, 3, etc. for continuation records)
12 - 20 Date this entry was replaced
22 - 25 Identification code of this entry which is now
obsolete
32 - 35 Identification code of a new entry which has
replaced this old entry
PDB – Protein Data Bank
Bancos de dados armazenam as coordenadas
atomicas e informações sobre a estrutura molecular;
Necessidade de programas de visualização de
Considerações Finais
Muitos dados e formatos de dados de
sequências biologicas;
Necessidade de implementação de métodos de
pesquisas de domínio especifico
Ferramentas de integração de multiplas fontes
de dados e integradas aos SGBDs;
Comunidade preocupada com os novos
Referências
ALBERTS, Bruce, et. Al, Fundamentos da Biologia Molecular. 2. ed. Porto
Alegre:Artmed, 2006.
ALTSCHUL, S.F., MADDEN, T.L., SCHAFFER, A.A., ZHANG, J., ZHANG, Z.,
MILLER, W., LIPMAN, D.J., 1997. Gapped BLAST and PSI-BLAST: a new
generation of protein database search programs. Nucleic Acids Res. 25, 3389– 3402.
BENSON,D.A., KARSCH-MIZRACHI,I., Lipman,D.J., Ostell,J. And Wheeler,D.L.
(2007) GenBank. Nucleic Acids Res., 35(Database issue), 21–25.
HOGEWEG, P (2011) The Roots of Bioinformatics in Theoretical Biology. PLoS
Comput Biol 7(3):e1002021. doi:10.1371/journal.pcbi.1002021
MOUNT, D.W., 2001. Bioinformatics: Sequence and Genome Analysis. Cold Spring
Harbor Laboratory Press, New York.
WEBB-ROBERTSON, B.J., OEHMEN, C.S., SHAH, A.R., 2008. A feature vector
integration approach for a generalized support vector machine pairwise homology algorithm. Comput. Biol. Chem. 32, 458–461.
LIFISCHITZ, Sérgio, Gerenciadores de Dados Biológicos:Genéricos ou
Ad-Hoc,Anais XXVII Congresso SBC-Sociedade Brasileira da Computação, Rio de Janeiro , 2007