sbd ugo

(1)

Bancos de Dados Biológicos

CCM205 – Sistema de Bancos de Dados Ugo Henrique Pereira da Silva

(2)

Banco de Dados Cientificos –

Bancos de Dados Biológicos

 Introdução

 Conceitos fundamentais

 DNA, RNA Proteína

 Dogma Central da Biologia

 Bancos de Dados de Sequências

 Genbank, PDB , …

 Considerações finais  Referências

(3)

Introdução

 A análise da expressão dos genes é de grande

interesse para as Ciências Biológicas.

 Esse tipo de análise pode fornecer informações

importantes sobre as funções de uma célula, uma vez que as mudanças na fisiologia de um organismo são geralmente acompanhadas por mudancas nos padrões de expressão dos genes (Alberts et al., 1997).

(4)

Introdução

 No início da década de 1970, Ben Hesper e

Paulien Hogeweg começaram a usar o termo "bioinformática" para a pesquisa que queriam fazer, definindo-o como ''o estudo dos processos computacionais nos sistemas bióticos'' (Hogeweg,.

(5)

Introdução

 A pesquisa de similaridade em bancos de

dados seqüência de DNA e proteínas é um campo essencial na pesquisa genômica (MOUNT, 2001; WEBB-ROBERTSON et al., 2008).

 O método fundamental para encontrar as

funções de DNA e seqüências de proteína é medir as semelhanças entre os dois seqüências.

(6)

Introdução

 Existem muitos métodos para realizar uma

verificação inteira na bases de dados de seqüência de DNA para uma busca de similaridade.

 Os métodos que são normalmente utilizados

são o algoritmo Smith-Waterman (Smith e Waterman, 1981) e BLAST (Altschul et al.,1990, 1997).

(7)

Introdução

 O GenBank, banco de dados de seqüências

genéticas continha somente 15 milhões de

nucleotídeos em 1987, dobrou de tamanho nos 5 anos subseqüentes.

 Em 1992 atingiu mais de 120 milhões

utilizando sequenciadores deDNA automáticos (ADAMS, et. Al, p. 4).

(8)

Conceitos Fundamentais

 DNA - deoxyribonucleic acid

 O ácido desoxirribonucleico: é um composto

orgânico cujas moléculas contêm as instruções genéticas que coordenam o desenvolvimento e funcionamento de todos os seres vivos e alguns vírus. O seu principal papel é armazenar as informações necessárias para a construção das proteínas e RNAs.

 A estrutura doDNA foi descoberta conjuntamente

pelo norte-americano James Watson e pelo britânico Francis Crick em 7 de Março de 1953, o que lhes valeu o Prêmio Nobel de Fisiologia/Medicina em 1962, juntamente com Maurice Wilkins.

(9)

Conceitos Fundamentais

 DNA - deoxyribonucleic acid

 Açucares

 Bases nitrogenadas

 Adenina (A), Guanina (G) - (Purinas)

 Timina (T), Citosina (C) - (Pirimidinas)

 Grupo fosfato

 Uma sequência de DNA é formada por dupla

(10)

Conceitos Fundamentais

(11)

Conceitos Fundamentais

 RNA - ribonucleic acid

 A composição do RNA é muito semelhante ao do

DNA (ácido desoxirribonucleico) contudo apresenta algumas diferenças:é formado por uma cadeia simples de nucleotídeos, e não uma de dupla hélice como o DNA;

 O RNA tem o açúcar ribose em seus nucleotídeos

em vez da desoxirribose encontrada no DNA.

 as bases adenina (A), guanina (G), citosina (C) e

(12)

Conceitos Fundamentais

(13)

Conceitos Fundamentais

 Proteína

 são compostos de alto peso molecular;

 sintetizadas pelos organismos vivos através da

condensação de um grande número de moléculas de alfa-aminoácidos, através de ligações denominadas ligações peptídicas;

 Uma proteína é um conjunto de no minimo 20

aminoácidos, mas sabemos que uma proteína possui muito mais que essa quantidade, sendo os conjuntos menores denominados Polipeptídeos.

(14)

Conceitos Fundamentais

(15)

Conceitos Fundamentais

(16)

Bancos de Dados Biológicos

 Os bancos de dados envolvendo seqüências

de nucleotídeos, de aminoácidos ou estruturas de proteínas podem ser classificados em bancos de seqüências primários e secundários.

 Os primeiros são formados pela deposição

direta de seqüências de nucleotídeos, aminoácidos ou estruturas protéicas, sem qualquer processamento ou análise.

(17)

Bancos de Dados Biológicos

 Os principais bancos de dados primários são o

GenBank, o EBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). Os três primeiros bancos são membros do INSDC (International Nucleotide Sequence Database Colaboration) e cada um desses centros possibilita a submissão individual de seqüências de DNA.

 Trocam informações entre si diariamente, de

(18)

Bancos de Dados Biológicos

 Com o crescente número de dados biológicos

que vem sendo gerados, vários bancos de dados têm surgido e anualmente a revista Nucleic Acids Research database publica uma lista atualizada com a classificação de todos os bancos de dados biológicos disponíveis.

(19)

Genbank

 banco de dados público de seqüências de

nucleotídeos e apoio bibliográfico e anotação biológica, criado e distribuído pela National Center for Biotechnology Information (NCBI), uma divisão da National Library of Medicine (NLM);

 Construido basicamente a partir da submissão

de dados da seqüência de autores e da maior parte de submissão de expressed sequence tag (EST), genome survey sequences (GSS), e

(20)

Genbank

 Há aproximadamente 126.551.501.141 bases

em 135.440.924 registros seqüência na divisão tradicional, 191.401.393.188 bases em 62.715.288 registros seqüência na divisão WGS em abril de 2011.

(21)

Genbank

 Sequência baseada em taxonomia

 Colaboração com EMBL e DDBJ e curadorias

externas, o que necessita de padrão para troca de dados

(22)

Genbank

 Adoção de uma Feature Table

 O objetivo geral do design da tabela é fornecer um extenso

vocabulário para descrever características de uma estrutura flexível para manipulá-los.

 A documentação representa a regras comuns que permitem

que as três bases de dados para troca de dados em uma base diária.A gama de recursos para ser representado é diversificado, incluindo as regiões que:

 Executar uma função biológica, Afetam ou são o

resultado da expressão de uma função biológica, Interagir com outras moléculas, Afetam a replicação de uma seqüência, Afetam ou são o resultado de recombinação de seqüências diferentes, são uma unidade reconhecível repetida,te m estrutura secundária ou terciária, variação de exposição, ou que tenham sido revistos ou corrigidos

(23)

Genbank

 Feature table format (EMBL):

Feature table format example (EMBL): FT source 1..1859 FT /db_xref="taxon:3899" FT /organism="Trifolium repens" FT /tissue_type="leaves" FT /clone_lib="lambda gt10" FT /clone="TRE361" FT /mol_type="genomic DNA" FT CDS 14..1495 FT /db_xref="MENDEL:11000" FT /db_xref="UniProtKB/Swiss-Prot:P26204" FT /note="non-cyanogenic" FT /EC_number="3.2.1.21" FT /product="beta-glucosidase" FT /protein_id="CAA40058.1" FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSR... ---+---+---+---+---+---+---+---1 ---+---+---+---+---+---+---+---10 20 30 40 50 60 70 79

(24)

Genbank

 Feature table format (Genbank):

Feature table format example (GenBank): source 1..8959 /organism="Homo sapiens" /db_xref="taxon:9606" /mol_type="genomic DNA" gene 212..8668 /gene="NF1" CDS 212..8668 /gene="NF1" /note="putative" /codon_start=1 /product="GAP-related protein" /protein_id="AAA59924.1" /translation="MAAHRPVEWVQAVVSRFDEQLPIKTGQQNTHTKVSTE... ---+---+---+---+---+---+---+---1 ---+---+---+---+---+---+---+---10 20 30 40 50 60 70 79

(25)

Genbank

 Feature table format (DDBJ):

Feature table format example (DDBJ): source 1..2136 /clone="pK28" /organism="Rattus norvegicus" /strain="Sprague-Dawley" /tissue_type="kidney" /mol_type="genomic DNA" mRNA 19..2128 CDS 31..1212 /codon_start=1

/function="Dual specificity protein tyrosine/threonine kinase"

/product="MAP kinase kinase" /protein_id="BAA02603.1"

/translation="MPKKKPTPIQLNPAPDGSAVNGTSSAETNLEALQKKL... ---+---+---+---+---+---+---+---1 ---+---+---+---+---+---+---+---10 20 30 40 50 60 70 79

(26)

Genbank

 Divisões e registros

 Cada entrada inclui uma concisa descrição da sequência, o

nome cientifico e taxonomia do organismo de origem, referencias bibliográficas e uma feature table por áreas de importancia biológica;

 Os arquivos são particionados em divisões que

correspondem a grupos taxonômicos como:

 Bactérias (BCT) , vírus(VRL), primatas (PRI) e

roedores (ROD), expressed seqüência tag (EST), pesquisa do genoma (GSS),

 genômica de alto rendimento (HTG), cDNA de

alto rendimento (HTC) e seqüências da amostra ambientais (ENV)

(27)

Genbank

 the BCT division is now composed of 72 files (+4)

 - the CON division is now composed of 149 files (+1)

 - the ENV division is now composed of 40 files (-1)

 - the EST division is now composed of 445 files (+10)

 - the GSS division is now composed of 247 files (+10)

 - the INV division is now composed of 30 files (+1)

 - the PAT division is now composed of 164 files (+23)

 - the PLN division is now composed of 48 files (+2)

(28)

Genbank

 Cada um destes arquivos tem o mesmo formato e é

composto por duas partes:

 informações de cabeçalho e seqüência de

(29)

Genbank

 Recuperação de Dados

 Os registros de seqüência no GenBank são acessíveis

através do Entrez (www.ncbi.nlm.nih.gov / sites / gquery), uma flexível sistema de banco de dados de recuperação que abrange 35 bancos de dados biológicas. Bases de dados Entrez contêm DNA e proteínas seqüências derivadas do GenBank e outras fontes, mapas genomicos, população, conjunto de sequencias filogenéticas e ambiental, os dados de expressão gênica, taxonomia, informações de domínio de proteína e estruturas do banco de dados Modelagem Molecular MMDB.

 Cada banco de dados está ligado a literatura científica via

(30)

(31)

(32)

(33)

PDB – Protein Data Bank

 O Protein Data Bank (PDB) é o único

repositório mundial de informações sobre as estruturas 3D de grandes moléculas biológicas, incluindo proteínas e ácidos nucléicos.

 Estas são as moléculas da vida que são

encontrados em todos os organismos, incluindo bactérias, fungos, plantas, moscas, outros animais e seres humanos.

(34)

PDB – Protein Data Bank

 Compreender a forma de uma molécula ajuda

a entender como ele funciona. Esse conhecimento pode ser usado para ajudar a deduzir papel de uma estrutura na saúde humana e doenças, e no desenvolvimento de medicamentos.

 As estruturas na faixa de arquivo a partir de

proteínas pequenas e pedaços de DNA de máquinas moleculares complexas como o ribossoma.

(35)

PDB – Protein Data Bank

 restritos a coordenadas atômicas que são

substancialmente determinados por medições experimentais contendo amostra real de macromoleculas biológicas.

 Atualmente, conjuntos produzidos por

cristalografia de raios X, NMR, microscopia eletrônica, difração de nêutrons, difração de pó, difração de fibra, e espalhamento de solução pode ser depositado no PDB, desde a molécula estudada atende ao requisito de tamanho mínimo.

(36)

PDB – Protein Data Bank

 Para cada coordenada atômica e entrada

bibliográfica o arquivo consiste de registros com 80 caracteres:

 Exemplo de registro:

 HEADER : Date entered into Data Bank;

identification code

 OBSLTE : Identifies entries which have been

replaced

 Cols.1-6 HEADER

 11 - 50 Functional classification of macromolecule

 51 - 59 Date of deposition into Data Bank(i)

(37)

PDB – Protein Data Bank

 Exemplo de registro:

 Cols. 1 -6 OBSLTE

 9 - 10 Continuation field (this field will be blank for the

first OBSLTE record in each entry and numbered 2, 3, etc. for continuation records)

 12 - 20 Date this entry was replaced

 22 - 25 Identification code of this entry which is now

obsolete

 32 - 35 Identification code of a new entry which has

replaced this old entry

(38)

PDB – Protein Data Bank

 Bancos de dados armazenam as coordenadas

atomicas e informações sobre a estrutura molecular;

 Necessidade de programas de visualização de

(39)

(40)

(41)

Considerações Finais

 Muitos dados e formatos de dados de

sequências biologicas;

 Necessidade de implementação de métodos de

pesquisas de domínio especifico

 Ferramentas de integração de multiplas fontes

de dados e integradas aos SGBDs;

 Comunidade preocupada com os novos

(42)

Referências

 ALBERTS, Bruce, et. Al, Fundamentos da Biologia Molecular. 2. ed. Porto

Alegre:Artmed, 2006.

 ALTSCHUL, S.F., MADDEN, T.L., SCHAFFER, A.A., ZHANG, J., ZHANG, Z.,

MILLER, W., LIPMAN, D.J., 1997. Gapped BLAST and PSI-BLAST: a new

generation of protein database search programs. Nucleic Acids Res. 25, 3389– 3402.

 BENSON,D.A., KARSCH-MIZRACHI,I., Lipman,D.J., Ostell,J. And Wheeler,D.L.

(2007) GenBank. Nucleic Acids Res., 35(Database issue), 21–25.

 HOGEWEG, P (2011) The Roots of Bioinformatics in Theoretical Biology. PLoS

Comput Biol 7(3):e1002021. doi:10.1371/journal.pcbi.1002021

 MOUNT, D.W., 2001. Bioinformatics: Sequence and Genome Analysis. Cold Spring

Harbor Laboratory Press, New York.

 WEBB-ROBERTSON, B.J., OEHMEN, C.S., SHAH, A.R., 2008. A feature vector

integration approach for a generalized support vector machine pairwise homology algorithm. Comput. Biol. Chem. 32, 458–461.

 LIFISCHITZ, Sérgio, Gerenciadores de Dados Biológicos:Genéricos ou

Ad-Hoc,Anais XXVII Congresso SBC-Sociedade Brasileira da Computação, Rio de Janeiro , 2007