• Nenhum resultado encontrado

Bases de dados de interesse biológico

N/A
N/A
Protected

Academic year: 2021

Share "Bases de dados de interesse biológico"

Copied!
20
0
0

Texto

(1)

18

18--99--20062006 LEBM LEBM --BioinformáticaBioinformática 11

Bases de dados de

interesse biológico

Pedro Fernandes

Instituto Gulbenkian de Ciência

Oeiras, Portugal

18-9-2006 LEBM - Bioinformática 2

Bases de dados em Biologia

Antes do aparecimento da

Biologia Molecular

– Bases de dados taxonómicas

– Colecções biológicas

– Observações de campo

– Bases de dados de bibliografia científica

(2)

18-9-2006 LEBM - Bioinformática 3

Era pré-computacional

Margaret Dayhoff e a sua famosa publicação

Com a Biologia Molecular

A comunidade científica apercebeu-se

– da real dimensão dos conjuntos de dados a que tinha

acesso e da sua complexidade

– dos requisitos computacionais

– do que a Biologia iria representar em termos de

organização de informação e de aquisição de

conhecimentos

(3)

18-9-2006 LEBM - Bioinformática 5

Alguns marcos históricos

IBM ASCI White >10 TeraFLOPS CRAY CDC 6600 9 MegaFLOPS Pascaline 1646 1909 Heredity Mendel’s laws 1965 1953 1984 1989 1956 DNA Structure (Watson and Crick) Insulin Sequence (F. Sanger) Atlas of Protein Sequences (M. Dayhoff) 1969 ARPANET 1975 1977 1980 1982 1986 Polymerase Chain Reaction (PCR) INTERNET 1990 World Wide Web 1990 BLAST Dolly 1997 2000 2000 1964 2000 1924 IBM 1970 Algorithm of Needlemann & Wunsch Bioinformática Computação Biologia 2004 2004

figura por David Perret, 4ESB, 2006

18-9-2006 LEBM - Bioinformática 6

Guardar, organizar, aceder

1984, Livros na prateleira

2006, Discos junto a um

cluster computacional

(4)

18-9-2006 LEBM - Bioinformática 7

Tipologia de bases de dados de

interesse biológico

Conteúdo:

Bibliografia

Sequências

Alinhamentos e Homologia

Funcionais e Clínicas

Genomas e Proteomas

Divisão temática de bases de

dados de interesse biológico

Sequências: nucleotídicas , RNA, Proteínas

Estruturais

Genómicas (não-vertebrados)

Vias Metabólicas e de Sinalização (Signaling)

Genomas (Humano e de outros vertebrados)

Genes Humanos e Doenças

Dados de Microarrays e Expressão Génica

Proteomica

Biologia Molecular (outras)

Organelos

(5)

18-9-2006 LEBM - Bioinformática 9

O interesse das bases de

dados em Biologia aumenta

Se forem

– acessíveis pela www

– indexadas

– instaláveis localmente (actualização)

– interligadas

– integradas

18-9-2006 LEBM - Bioinformática 10

Com Bioinformática, a utilização de

bases de dados de proteínas permite

-

Detectar num conjunto de proteínas uma possível relação

evolutiva, se existir

-

Detectar semelhanças locais que permitam atribuir função

-

Explorar estruturas tridimensionais preditas ou encontradas

experimentalmente e com elas predizer o papel de proteínas

-

Explorar possíveis interacções de proteínas com proteínas ou de

proteínas com outras moléculas

-

Explorar a possibilidade de desenhar “inspiradamente” novas

proteínas para fins específicos

-

Explorar a possibilidade de modificar proteínas existentes,

modificando as suas funções

(6)

18-9-2006 LEBM - Bioinformática 11

A Biologia, uma grande fonte

de informação?

Há 10

11

galáxias no Universo observável

Há 4 x 10

22

estrelas no Universo observável

P: Quantos grãos de areia tem esta praia?

R: Assumindo que a praia tem 5km x 500m x 5m e que um grão de

areia tem 1 micron de diâmetro, a praia terá 12.5x10

25

partículas

Conhecemos cerca de 10

5

mas as regras que conhecemos fazem

prever que poderão formar-se 10

66

espécies moleculares

diferentes, a maioria delas com um papel biológico relevante

Tipos de bases de dados com

sequências biológicas

Primárias: contêm dados laboratoriais

(sequências)

em registos revistos, validados e comentados

em registos gerados automaticamente

Secundárias: de padrões, resultantes

de análises de material das primárias

(7)

18-9-2006 LEBM - Bioinformática 13

Bases de dados primárias

– Entradas submetidas pelos investigadores,

revistas e validadas

– Com “accession number” único por entrada

De Nucleótidos (N):

– Genbank, EMBL, DDBJ

– Sincronizadas (depósito em paralelo)

De Proteinas (P):

– Swissprot, PIR, PDB

18-9-2006 LEBM - Bioinformática 14

Crescimento de bases de dados primárias N

0 10000 20000 30000 40000 50000 60000 70000 T h o u s a n d s

This morning the EMBL Database contained 147,008,211,912 nucleotides in 80,547,851 entries.

Breakdown by entry type:

Entry Type

Entries

Nucleotides

Change in 1 year

Standard

62,390,422 66,454,995,726

+20%

Constructed (CON)

842,91

n/a

Third Party Annotation (TPA)

5,125

335,604,561

+ 1M

Whole Genome Shotgun (WGS)

17,309,390

80,217,611,625

+ 80%

17 Set 2006

http://www3.ebi.ac.uk/Services/DBStats/

(8)

18-9-2006 LEBM - Bioinformática 15

Crescimento de bases de dados primárias P

http://au.expasy.org/sprot/relnotes/relstat.html

Crescimento de bases de dados primárias P

PDB: base de dados primária de

proteínas com informação estrutural

(de origem experimental e obtida

com modelos)

(9)

18-9-2006 LEBM - Bioinformática 17

O dilúvio de informação vem



Dos projectos de sequenciação de

genomas



Dos projectos de Proteómica



De experimentação de alto débito:

– Microarrays

– Arrays de Proteínas

– Teste paralelizado de fármacos

– Outros testes em larga escala

18-9-2006 LEBM - Bioinformática 18

O tamanho dos genomas

ORGANISMO

CROMOSOMAS

Tam. GENOMA

# GENES

Homo sapiens

23

3,200,000,000

~ 30,000

Mus musculus

20

2,600,000,000

~30,000

D. melanogaster

4

180,000,000

~18,000

Sa. cerevisiae

16

14,000,000

~6,000

Zea mays

10

2,400,000,000

???

(10)

18-9-2006 LEBM - Bioinformática 19

O déficit de conhecimento

Podemos, em certos casos, predizer propriedades de protínas e até a

sua função a partir do conhecimento da estrutura.

Quase nunca se consegue fazer o mesmo com apenas a sequência.

Sabemos mais de sequências do que de estrutura (e função)

Conhecemos 50*10

6

sequências nucleotídicas (EMBL) , das quais 22*10

6

são ESTs.

Conhecemos 35*10

3

estruturas de proteínas (PDB), das quais apenas

8*10

3

estão confirmadas experimentalmente (NMR, difracção dos raios X, etc.)

O rácio é 28*10

6

/ 8*10

3

(> 3*10

3

)

Em proteínas conhecemos

194*10

3

sequências (Swissprot)

O rácio é 194*10

3

/ 8*10

3

(> 24)

Melhoramentos

N

não-redundante:

RefSeq

– Publicada pelo NCBI como a Genbenk

– Contém mRNA, “Contigs” genómicos,

traduções conhecidas, etc.

– Contém registos que provêm da

anotação de genomas

(11)

18-9-2006 LEBM - Bioinformática 21

Melhoramentos

P

não-redundante:

RefSeqP

– Base de anotação funcional para o

projecto do Genoma Humano

– Suporte básico para o

Dogma Central da Biologia Molecular

18-9-2006 LEBM - Bioinformática 22

Subconjuntos

TrEMBL – Translated EMBL

Nº de registos

2,105,517

Complemento da Swissprot com sequências de

proteínas que se sabe resultarem da tradução de

sequências nucleotídicas entradas na EMBL

SpTrEMBL –

Sequências de proteínas prontas a entrar na

Swissprot. Por exemplo, a aguardar uma evidência

experimental

RmTrEMBL –

Sequências de proteínas que não vão

entrar na Swissprot: fragmentos, sequências sintéticas, etc.

(12)

18-9-2006 LEBM - Bioinformática 23

Primárias unificadas

UNIPROT (EBI, Dec 2003)

Base de dados de proteínas unificada e

não-redundante, resultante da reunião

supervisionada de:

SwissProt, TrEMBL e PIR

Nº de registos: ~2M

Primárias unificadas

UNIParc (UNIPROT Archive, EBI, Jan 2005)

Base de dados de proteínas unificada e

não-redundante, resultante da reunião

supervisionada de:

UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, PIR-PSD, EMBL,

Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, European

Patent Office proteins, United States Patent and Trademark

Office (USPTO) e Japan Patent Office

(13)

18-9-2006 LEBM - Bioinformática 25

A interoperabilidade

Tem obrigado a que o formato mais prático de usar

seja o de “FLAT FILE”, um formato de texto em

que os registos são constituídos por linhas que

começam com um código que indica o tipo de

informação que a linha contém.

É arcaico mas muito fácil de manipular.

Tem vantagens de simplificação, mas obriga a um

esforço permanente de reformatação para

utilização com software específico.

18-9-2006 LEBM - Bioinformática 26

Um registo na

EMBL

ID U83981 standard; RNA; HUM; 2331 BP.

AC U83981;

SV U83981.1

DT 29-JUN-1998 (Rel. 56, Created)

DT 04-MAR-2000 (Rel. 63, Last updated, Version 4)

DE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.

KW .

OS Homo sapiens (human)

OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;

OC Eutheria; Primates; Catarrhini; Hominidae; Homo.

RN [1]

RP 1-2331

RX MEDLINE; 97298078.

RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;

RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene";

"

XX

SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;

cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60

cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120

cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180

cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240

ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300

ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360

gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420

(14)

18-9-2006 LEBM - Bioinformática 27

Cabeçalho contendo a anotação

EMBL:U83981

ID U83981 standard; RNA; HUM; 2331 BP. XX

AC U83981; XX

SV U83981.1 XX

DT 29-JUN-1998 (Rel. 56, Created)

DT 04-MAR-2000 (Rel. 63, Last updated, Version 4) XX

DE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds. XX

KW . XX

OS Homo sapiens (human)

OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo.

XX RN [1] RP 1-2331

RX MEDLINE; 97298078.

RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;

RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene"; RL J. Biol. Chem. 272(21):13731-13737(1997). XX RN [2] RP 1-2331 (more...)

EMBL

Cabeçalho contendo a anotação

LOCUS HSU83981 2331 bp mRNA linear PRI 07-JUL-1998 DEFINITION Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds. ACCESSION U83981

VERSION U83981.1 GI:3258617 KEYWORDS .

SOURCE Homo sapiens (human) ORGANISM Homo sapiens

Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 2331)

AUTHORS Hollander,M.C., Zhan,Q., Bae,I. and Fornace,A.J. Jr. TITLE Mammalian GADD34, an apoptosis- and DNA damage-inducible gene JOURNAL J. Biol. Chem. 272 (21), 13731-13737 (1997)

MEDLINE 97298078 PUBMED 9153226

(15)

18-9-2006 LEBM - Bioinformática 29

Registo na

EMBL

(sequência)

SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;

cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60 cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120 cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180 cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240 ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300 ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360 gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420 cctctggcaa tcccccatac cccttggggc agacgccctg aagaggaggc tgaagacagt 480 .

.

cgggatcgca gccgcttcgc acgccgcatc acccaggccc aggaggagct gagcccctgc 2040 ctcacccctg ctgcccgggc cagagcctgg gcacgcctca ggaacccacc tttagccccc 2100 atccctgccc tcacccagac cttgccttcc tcctctgtcc cttcgtcccc agtccagacc 2160 acgcccttga gccaagctgt ggccacacct tcccgctcgt ctgctgctgc agcggctgcc 2220 ctggacctca gtgggaggcg tggctgagac caactggttt gcctataatt tattaactat 2280 ttattttttc taagtgtggg tttatataag gaataaagcc ttttgatttg t 2331 //

18-9-2006 LEBM - Bioinformática 30

BD Bibliográficas

Acesso livre e universal

Títulos, autores,

palavras-chave, sumários, referências

12 M registos

Vocabulário controlado (MESH)

Pesquiza com ENTREZ

(16)

18-9-2006 LEBM - Bioinformática 31

Vocabulário controlado MESH

Organização hieráriquica

Decisão consensual

Hemoglobin ou h

a

emoglobin?

NMR

é uma técnica de espectroscopia

Nuclear Magnetic Resonance

é uma técnica de imagiologia

Mais BD Bibliográficas



Web of Knowledge, ISI, b-on



PubCrawler (alertas)

(17)

18-9-2006 LEBM - Bioinformática 33

BD Estruturais

Para cada proteína, as coordenadas 3D dos átomos tal como são

submetidas por experimentalistas (difracção dos raios X, NMR).

Estas coordenadas permitem a visualização como objecto gráfico

usando software apropriado (RasMol, Swiss PDB Viewer, VMD,

Chemscape Chime, etc.)

1FGB

ATOM 1 N ALA D 1 14.023 -18.754 3.091 1.00 14.50 N ATOM 2 CA ALA D 1 13.751 -18.777 4.557 1.00 13.42 C ATOM 3 C ALA D 1 12.429 -19.500 4.748 1.00 15.38 C ATOM 4 O ALA D 1 11.631 -19.583 3.809 1.00 15.75 O ATOM 5 CB ALA D 1 13.655 -17.368 5.099 1.00 12.17 C ATOM 6 N PRO D 2 12.204 -20.112 5.928 1.00 15.99 N ATOM 7 CA PRO D 2 10.940 -20.819 6.172 1.00 18.53 C ATOM 8 C PRO D 2 9.793 -19.836 6.031 1.00 18.62 C 18-9-2006 LEBM - Bioinformática 34

BD Estruturais

PDB

http://www.rcsb.org/pdb/

Research Collaboratory for Structural Bioinformatics

(RCSB)

Molecule of the Month

Cholera Toxin

(18)

18-9-2006 LEBM - Bioinformática 35

BD Estruturais com Classificação

CATH

Classification, Architecture, Topology, Homology

http://www.biochem.ucl.ac.uk/bsm/cath_new/

SCOP

Structural Classification of Proteins

http://scop.mrc-lmb.cam.ac.uk/scop/

BD integradas

Informação proveniente de múltiplas bases de

dados, beneficiando de interconexão e anotação

supervisada.

GeneCards

http://bioinformatics.weizmann.ac.il/cards

– Informação detalhada por gene com ligações a

várias bases de dados com informação

(19)

18-9-2006 LEBM - Bioinformática 37

BD integradas

Interpro

http://www.ebi.ac.uk/interpro

– Resultado da integração de diversos

recursos como PRINTS; PROSITE;

SMART; ProDom; Pfam; TIGRfam

18-9-2006 LEBM - Bioinformática 38

BD Clínicas

HGMD

http://www.hgmd.org

– Mutações e doenças associadas

dbSNP

http://ncbi.nlm.nih.gov/SNP/

(20)

18-9-2006 LEBM - Bioinformática 39

BD de interesse biológico

Que esperar do futuro?

Maior integração

Maior controlo de qualidade

Melhores interfaces de utilizador

Melhor interoperabilidade

XML

Referências

Documentos relacionados

PARAÍBA – SAAE VALE, entidade de 1º grau, representativa da categoria profissional “AUXILIARES DE ADMINISTRAÇÃO ESCOLAR (EMPREGADOS EM ESTABELECIMENTOS DE ENSINO)”,

1.1 O Instituto Federal de Educação, Ciência e Tecnologia de Minas Gerais (IFMG), por meio da Coordenação de Extensão e Cultura do Campus Ribeirão das

Houve maior consumo no segundo inquérito, entre os universitários com as seguintes características sociodemográficas: mulheres, universitários de 21 a 23 anos e com 24 anos e

Convém também conhecer os accession numbers, que são únicos para cada sequência, não devendo variar entre bases de dados diferentes, podendo assim aceder-se às entradas de outras

Ter conhecimento destes fatos é essencial para a conservação ambiental, visto que, a matéria orgânica da superfície do solo é responsável pela maior parte da emissão e captura

• Tecnologias Educacionais – Aplicação de tecnologias específicas em Educação Ambiental visando o desenvolvimento de ações que venham a fortalecer os processos para

Os sujeitos da pesquisa foram 4 professores que participam do projeto ‘Mais Educação’ em uma escola pública do Município de Alagoa Nova-PB. Como instrumento de

Se existir uma etapa habilitada para o cliente (aprovado ou reprovado), será mostrado novamente a tela para fazer submissão de documentos (exemplo: interpor o