18
18--99--20062006 LEBM LEBM --BioinformáticaBioinformática 11
Bases de dados de
interesse biológico
Pedro Fernandes
Instituto Gulbenkian de Ciência
Oeiras, Portugal
18-9-2006 LEBM - Bioinformática 2
Bases de dados em Biologia
Antes do aparecimento da
Biologia Molecular
– Bases de dados taxonómicas
– Colecções biológicas
– Observações de campo
– Bases de dados de bibliografia científica
18-9-2006 LEBM - Bioinformática 3
Era pré-computacional
Margaret Dayhoff e a sua famosa publicação
Com a Biologia Molecular
A comunidade científica apercebeu-se
– da real dimensão dos conjuntos de dados a que tinha
acesso e da sua complexidade
– dos requisitos computacionais
– do que a Biologia iria representar em termos de
organização de informação e de aquisição de
conhecimentos
18-9-2006 LEBM - Bioinformática 5
Alguns marcos históricos
IBM ASCI White >10 TeraFLOPS CRAY CDC 6600 9 MegaFLOPS Pascaline 1646 1909 Heredity Mendel’s laws 1965 1953 1984 1989 1956 DNA Structure (Watson and Crick) Insulin Sequence (F. Sanger) Atlas of Protein Sequences (M. Dayhoff) 1969 ARPANET 1975 1977 1980 1982 1986 Polymerase Chain Reaction (PCR) INTERNET 1990 World Wide Web 1990 BLAST Dolly 1997 2000 2000 1964 2000 1924 IBM 1970 Algorithm of Needlemann & Wunsch Bioinformática Computação Biologia 2004 2004
figura por David Perret, 4ESB, 2006
18-9-2006 LEBM - Bioinformática 6
Guardar, organizar, aceder
1984, Livros na prateleira
2006, Discos junto a um
cluster computacional
18-9-2006 LEBM - Bioinformática 7
Tipologia de bases de dados de
interesse biológico
Conteúdo:
Bibliografia
Sequências
Alinhamentos e Homologia
Funcionais e Clínicas
Genomas e Proteomas
Divisão temática de bases de
dados de interesse biológico
Sequências: nucleotídicas , RNA, Proteínas
Estruturais
Genómicas (não-vertebrados)
Vias Metabólicas e de Sinalização (Signaling)
Genomas (Humano e de outros vertebrados)
Genes Humanos e Doenças
Dados de Microarrays e Expressão Génica
Proteomica
Biologia Molecular (outras)
Organelos
18-9-2006 LEBM - Bioinformática 9
O interesse das bases de
dados em Biologia aumenta
Se forem
– acessíveis pela www
– indexadas
– instaláveis localmente (actualização)
– interligadas
– integradas
18-9-2006 LEBM - Bioinformática 10
Com Bioinformática, a utilização de
bases de dados de proteínas permite
-
Detectar num conjunto de proteínas uma possível relação
evolutiva, se existir
-
Detectar semelhanças locais que permitam atribuir função
-
Explorar estruturas tridimensionais preditas ou encontradas
experimentalmente e com elas predizer o papel de proteínas
-
Explorar possíveis interacções de proteínas com proteínas ou de
proteínas com outras moléculas
-
Explorar a possibilidade de desenhar “inspiradamente” novas
proteínas para fins específicos
-
Explorar a possibilidade de modificar proteínas existentes,
modificando as suas funções
18-9-2006 LEBM - Bioinformática 11
A Biologia, uma grande fonte
de informação?
Há 10
11galáxias no Universo observável
Há 4 x 10
22estrelas no Universo observável
P: Quantos grãos de areia tem esta praia?
R: Assumindo que a praia tem 5km x 500m x 5m e que um grão de
areia tem 1 micron de diâmetro, a praia terá 12.5x10
25partículas
Conhecemos cerca de 10
5mas as regras que conhecemos fazem
prever que poderão formar-se 10
66espécies moleculares
diferentes, a maioria delas com um papel biológico relevante
Tipos de bases de dados com
sequências biológicas
Primárias: contêm dados laboratoriais
(sequências)
em registos revistos, validados e comentados
em registos gerados automaticamente
Secundárias: de padrões, resultantes
de análises de material das primárias
18-9-2006 LEBM - Bioinformática 13
Bases de dados primárias
– Entradas submetidas pelos investigadores,
revistas e validadas
– Com “accession number” único por entrada
De Nucleótidos (N):
– Genbank, EMBL, DDBJ
– Sincronizadas (depósito em paralelo)
De Proteinas (P):
– Swissprot, PIR, PDB
18-9-2006 LEBM - Bioinformática 14
Crescimento de bases de dados primárias N
0 10000 20000 30000 40000 50000 60000 70000 T h o u s a n d s
This morning the EMBL Database contained 147,008,211,912 nucleotides in 80,547,851 entries.
Breakdown by entry type:
Entry Type
Entries
Nucleotides
Change in 1 year
Standard
62,390,422 66,454,995,726
+20%
Constructed (CON)
842,91
n/a
Third Party Annotation (TPA)
5,125
335,604,561
+ 1M
Whole Genome Shotgun (WGS)
17,309,390
80,217,611,625
+ 80%
17 Set 2006
http://www3.ebi.ac.uk/Services/DBStats/
18-9-2006 LEBM - Bioinformática 15
Crescimento de bases de dados primárias P
http://au.expasy.org/sprot/relnotes/relstat.html
Crescimento de bases de dados primárias P
PDB: base de dados primária de
proteínas com informação estrutural
(de origem experimental e obtida
com modelos)
18-9-2006 LEBM - Bioinformática 17
O dilúvio de informação vem
Dos projectos de sequenciação de
genomas
Dos projectos de Proteómica
De experimentação de alto débito:
– Microarrays
– Arrays de Proteínas
– Teste paralelizado de fármacos
– Outros testes em larga escala
18-9-2006 LEBM - Bioinformática 18
O tamanho dos genomas
ORGANISMO
CROMOSOMAS
Tam. GENOMA
# GENES
Homo sapiens
23
3,200,000,000
~ 30,000
Mus musculus
20
2,600,000,000
~30,000
D. melanogaster
4
180,000,000
~18,000
Sa. cerevisiae
16
14,000,000
~6,000
Zea mays
10
2,400,000,000
???
18-9-2006 LEBM - Bioinformática 19
O déficit de conhecimento
Podemos, em certos casos, predizer propriedades de protínas e até a
sua função a partir do conhecimento da estrutura.
Quase nunca se consegue fazer o mesmo com apenas a sequência.
Sabemos mais de sequências do que de estrutura (e função)
Conhecemos 50*10
6sequências nucleotídicas (EMBL) , das quais 22*10
6são ESTs.
Conhecemos 35*10
3estruturas de proteínas (PDB), das quais apenas
8*10
3estão confirmadas experimentalmente (NMR, difracção dos raios X, etc.)
O rácio é 28*10
6/ 8*10
3(> 3*10
3)
Em proteínas conhecemos
194*10
3sequências (Swissprot)
O rácio é 194*10
3/ 8*10
3(> 24)
Melhoramentos
N
não-redundante:
RefSeq
– Publicada pelo NCBI como a Genbenk
– Contém mRNA, “Contigs” genómicos,
traduções conhecidas, etc.
– Contém registos que provêm da
anotação de genomas
18-9-2006 LEBM - Bioinformática 21
Melhoramentos
P
não-redundante:
RefSeqP
– Base de anotação funcional para o
projecto do Genoma Humano
– Suporte básico para o
Dogma Central da Biologia Molecular
18-9-2006 LEBM - Bioinformática 22
Subconjuntos
TrEMBL – Translated EMBL
Nº de registos
2,105,517
Complemento da Swissprot com sequências de
proteínas que se sabe resultarem da tradução de
sequências nucleotídicas entradas na EMBL
SpTrEMBL –
Sequências de proteínas prontas a entrar na
Swissprot. Por exemplo, a aguardar uma evidência
experimental
RmTrEMBL –
Sequências de proteínas que não vão
entrar na Swissprot: fragmentos, sequências sintéticas, etc.
18-9-2006 LEBM - Bioinformática 23
Primárias unificadas
UNIPROT (EBI, Dec 2003)
Base de dados de proteínas unificada e
não-redundante, resultante da reunião
supervisionada de:
SwissProt, TrEMBL e PIR
Nº de registos: ~2M
Primárias unificadas
UNIParc (UNIPROT Archive, EBI, Jan 2005)
Base de dados de proteínas unificada e
não-redundante, resultante da reunião
supervisionada de:
UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, PIR-PSD, EMBL,
Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, European
Patent Office proteins, United States Patent and Trademark
Office (USPTO) e Japan Patent Office
18-9-2006 LEBM - Bioinformática 25
A interoperabilidade
Tem obrigado a que o formato mais prático de usar
seja o de “FLAT FILE”, um formato de texto em
que os registos são constituídos por linhas que
começam com um código que indica o tipo de
informação que a linha contém.
É arcaico mas muito fácil de manipular.
Tem vantagens de simplificação, mas obriga a um
esforço permanente de reformatação para
utilização com software específico.
18-9-2006 LEBM - Bioinformática 26
Um registo na
EMBL
ID U83981 standard; RNA; HUM; 2331 BP.
AC U83981;
SV U83981.1
DT 29-JUN-1998 (Rel. 56, Created)
DT 04-MAR-2000 (Rel. 63, Last updated, Version 4)
DE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.
KW .
OS Homo sapiens (human)
OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC Eutheria; Primates; Catarrhini; Hominidae; Homo.
RN [1]
RP 1-2331
RX MEDLINE; 97298078.
RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;
RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene";
"
XX
SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;
cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60
cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120
cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180
cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240
ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300
ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360
gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420
18-9-2006 LEBM - Bioinformática 27
Cabeçalho contendo a anotação
EMBL:U83981
ID U83981 standard; RNA; HUM; 2331 BP. XX
AC U83981; XX
SV U83981.1 XX
DT 29-JUN-1998 (Rel. 56, Created)
DT 04-MAR-2000 (Rel. 63, Last updated, Version 4) XX
DE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds. XX
KW . XX
OS Homo sapiens (human)
OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo.
XX RN [1] RP 1-2331
RX MEDLINE; 97298078.
RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;
RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene"; RL J. Biol. Chem. 272(21):13731-13737(1997). XX RN [2] RP 1-2331 (more...)
EMBL
Cabeçalho contendo a anotação
LOCUS HSU83981 2331 bp mRNA linear PRI 07-JUL-1998 DEFINITION Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds. ACCESSION U83981
VERSION U83981.1 GI:3258617 KEYWORDS .
SOURCE Homo sapiens (human) ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 2331)
AUTHORS Hollander,M.C., Zhan,Q., Bae,I. and Fornace,A.J. Jr. TITLE Mammalian GADD34, an apoptosis- and DNA damage-inducible gene JOURNAL J. Biol. Chem. 272 (21), 13731-13737 (1997)
MEDLINE 97298078 PUBMED 9153226
18-9-2006 LEBM - Bioinformática 29
Registo na
EMBL
(sequência)
SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;
cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60 cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120 cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180 cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240 ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300 ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360 gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420 cctctggcaa tcccccatac cccttggggc agacgccctg aagaggaggc tgaagacagt 480 .
.
cgggatcgca gccgcttcgc acgccgcatc acccaggccc aggaggagct gagcccctgc 2040 ctcacccctg ctgcccgggc cagagcctgg gcacgcctca ggaacccacc tttagccccc 2100 atccctgccc tcacccagac cttgccttcc tcctctgtcc cttcgtcccc agtccagacc 2160 acgcccttga gccaagctgt ggccacacct tcccgctcgt ctgctgctgc agcggctgcc 2220 ctggacctca gtgggaggcg tggctgagac caactggttt gcctataatt tattaactat 2280 ttattttttc taagtgtggg tttatataag gaataaagcc ttttgatttg t 2331 //
18-9-2006 LEBM - Bioinformática 30
BD Bibliográficas
Acesso livre e universal
Títulos, autores,
palavras-chave, sumários, referências
12 M registos
Vocabulário controlado (MESH)
Pesquiza com ENTREZ
18-9-2006 LEBM - Bioinformática 31
Vocabulário controlado MESH
Organização hieráriquica
Decisão consensual
Hemoglobin ou h
a
emoglobin?
NMR
é uma técnica de espectroscopia
Nuclear Magnetic Resonance
é uma técnica de imagiologia
Mais BD Bibliográficas
Web of Knowledge, ISI, b-on
PubCrawler (alertas)
18-9-2006 LEBM - Bioinformática 33
BD Estruturais
Para cada proteína, as coordenadas 3D dos átomos tal como são
submetidas por experimentalistas (difracção dos raios X, NMR).
Estas coordenadas permitem a visualização como objecto gráfico
usando software apropriado (RasMol, Swiss PDB Viewer, VMD,
Chemscape Chime, etc.)
1FGB
ATOM 1 N ALA D 1 14.023 -18.754 3.091 1.00 14.50 N ATOM 2 CA ALA D 1 13.751 -18.777 4.557 1.00 13.42 C ATOM 3 C ALA D 1 12.429 -19.500 4.748 1.00 15.38 C ATOM 4 O ALA D 1 11.631 -19.583 3.809 1.00 15.75 O ATOM 5 CB ALA D 1 13.655 -17.368 5.099 1.00 12.17 C ATOM 6 N PRO D 2 12.204 -20.112 5.928 1.00 15.99 N ATOM 7 CA PRO D 2 10.940 -20.819 6.172 1.00 18.53 C ATOM 8 C PRO D 2 9.793 -19.836 6.031 1.00 18.62 C 18-9-2006 LEBM - Bioinformática 34BD Estruturais
PDB
http://www.rcsb.org/pdb/
Research Collaboratory for Structural Bioinformatics
(RCSB)
Molecule of the Month
Cholera Toxin
18-9-2006 LEBM - Bioinformática 35
BD Estruturais com Classificação
CATH
Classification, Architecture, Topology, Homology
http://www.biochem.ucl.ac.uk/bsm/cath_new/
SCOP
Structural Classification of Proteins
http://scop.mrc-lmb.cam.ac.uk/scop/
BD integradas
Informação proveniente de múltiplas bases de
dados, beneficiando de interconexão e anotação
supervisada.
GeneCards
http://bioinformatics.weizmann.ac.il/cards
– Informação detalhada por gene com ligações a
várias bases de dados com informação
18-9-2006 LEBM - Bioinformática 37
BD integradas
Interpro
http://www.ebi.ac.uk/interpro
– Resultado da integração de diversos
recursos como PRINTS; PROSITE;
SMART; ProDom; Pfam; TIGRfam
18-9-2006 LEBM - Bioinformática 38
BD Clínicas
HGMD
http://www.hgmd.org
– Mutações e doenças associadas
dbSNP
http://ncbi.nlm.nih.gov/SNP/
18-9-2006 LEBM - Bioinformática 39