Bioinformática. Tipos de Bases de Dados (BD) Principais BD Primárias. Bases de dados Não-Redundantes. 3 - Bases de dados

(1)

Bioinformática

3 - Bases de dados

Bioinformática 2013

2

Tipos de Bases de Dados (BD)

l  Primárias: sequência de ácidos nucleicos e proteínas com

vários níveis de anotação

l  Primárias compostas: combinações de várias bases de dados

primárias de sequências

l  Exemplo: bases de dados não redundantes

l  Secundárias: derivadas das primárias: ex. Bases de dados de

domínios proteicos e alinhamentos múltiplos de domínios conservados

l  Secundárias compostas: combinações de várias bases de

dados secundárias tais como bases de dados de dmínios proteicos que usam a informação dos domínios de outras bases de dados

Principais BD Primárias

l 

Ácidos nucleicos

l 

National Center for Biotechnology (NCBI),

l 

European Molecular Biology Laboratory (EMBL) at the

European Bioinformatics Institute (EBI)

l 

DNA Database of Japan (DDBJ)

l 

Proteínas

l 

CDS (coding sequence) tradução do GenBank

l 

Swiss-Prot: base de dados referência para investigação na

área das proteínas

l 

TrEMBL (Translated EMBL): tradução da CDS da BD

EMBL

l 

UniProt (the Universal Protein Resource)

Bases de dados Não-Redundantes

l  A maioria das organizações possui BD não redundantes que combinam as diferentes sequências de diferentes BDs de modo a obter um conjunto de sequências coerente.

l  Algumas BDs não-redundantes simplesmente eliminam sequências idênticas, outras incluem uma entrada representativa para um conjuno de sequencias relacionadas.

l  A BD não redundante de proteínas (“nr”) do NCBI elimina somente sequências identicas.

l  Reference Sequence (RefSeq) no NCBI e UniRef (parte do UniProt no EMBL) são BDs não redundantes.

(2)

5

Bases de dados Secundárias

l  Contêm resultados de análises feitas a BDs primárias l  Podem ser de polipéptidos (pp) e conterem padrões, motivos,

domínios, com representações de regiões conservados nas sequências de a.a.

l  Exemple: Interpro (http://www.ebi.ac.uk/interpro/) is an integrated

database of predictive protein signatures used for the

classification and automatic annotation of proteins and genomes. InterPro classifies sequences at superfamily, family and subfamily levels, predicting the occurrence of functional domains, repeats and important sites.

l  BDs secundárias de DNA contêm padrões como locais de restrição,

sequências de promotores, locais de ligação a proteínas, repetições, etc.

6

BDs de estruturas proteicas

l  O maior repositório de estruturas proteicas 3D encontra-se na Protein Data Bank (PDB): http://www.rcsb.org/pdb/

l  The PDB archive contains information about experimentally-determined structures of proteins, nucleic acids, and complex assemblies.

7

Outros tipos de BDs

l  Genomas e análise comparativa de genomas

l  Organização dos genomas permitindo comparações com as estruturas dos cromossomas e a sintenia entre espécies

l  http://www.plantgdb.org/

l  Expressão génica

l  Resultados de experiências com microarrays

l  The ArrayExpress Archive is a database of functional genomics experiments including gene expression where you can query and download data

http://www.ebi.ac.uk/arrayexpress/index.html

l  Gene Expression Omnibus at NCBI http://www.ncbi.nlm.nih.gov/geo/

l  Comparative RNA Web Site

(3)

Bioinformática 2013 9

Microarrays

9 Bioinformática 2013 10

Principais BDs de nucleótidos em Bioinformática

l 

GenBank (NCBI)

l 

http://www.ncbi.nlm.nih.gov/Genbank/

l 

Nucleotide Sequence Database (EMBL)

l 

http://www.ebi.ac.uk/embl/

l 

DNA Databse of Japan (DDBJ)

l 

http://www.ddbj.nig.ac.jp/

NCBI

– National Center for Biotechnology Information

Últimas estatísticas do NCBI

(4)

Entrez – Bases de dados integradas

http://www.ncbi.nlm.nih.gov/sites/gquery

16

l  Divisão do GenBank que contém sequências de cDNA ou "Expressed Sequence Tags", pertencentes a determinados organismos

l  Um EST é uma sequência específica de um exão de 50-500pb que

foi sujeita a transcrição reversa do mRNA

l  Um EST representa uma parte de um gene:

l  Há bibliotecas específicas de tecidos, de condições ambientais

específicas de fase de desenvolvimento, etc

.

Expressed Sequence Tags database

17

Expressed Sequence Tags

l  A collection of curated, non-redundant genomic DNA, transcript (RNA), and protein sequences produced by NCBI. RefSeqs provide a stable reference for genome annotation, gene identification and characterization, mutation and polymorphism analysis, expression studies, and comparative analyses. The RefSeq collection is accessed through the Nucleotide and Protein databases.

(5)

19

l  A public registry of nucleic acid reagents designed for use in a wide variety of biomedical research applications, together with information on reagent distributors, probe effectiveness, and computed sequence similarities.

l  The GSS database is a collection of unannotated short single-read primarily genomic sequences from GenBank including random survey sequences clone-end sequences and exon-trapped sequences.

l  Esta divisão contêm os seguintes tipos de dados:

l  Sequências que resultaram da leitura somente de uma das cadeias de DNA l  Sequências das extremidades de cosmídeos, BACs e YACs

l  Sequências genómicas contidas entre exões l  Sequências alvo de transposões

Genome Survey Sequences Database

25

Bioinformática 2013 Bioinformática 2013

Sites importantes a explorar

(6)

28

Ficheiros de sequências em formato FASTA

l  É o formato mais comum para guardar sequências em ficheiros e para submetê-los a aplicações bioinformáticas

l  1ª Linha linha com a descrição da informação; l  TEM QUE COMEÇAR COM o caracter >

l  O 1º campo tem que ser único de modo a poder comparar diferentes sequências em ficheiros diferentes

l  As linhas seguintes possuem a sequência

l  Admite espaçoes em branco e linhas vazias l  Não admite algarismos

l  Um ficheiro pode conter várias sequências ; O início de cada sequência é identificado e reconhecido pela linha de definição que começa sempre por >

(7)

http://www.ebi.ac.uk/embl/Access/index.html

33 Bioinformática 2013

http://www.ebi.ac.uk/genomes/

34 Bioinformática 2013

E muito mais...

l 

Para informação mais completa visitar

http://www.ebi.ac.uk/services/

l 

O seguinte local possui importantes recursos educacionais

em Bioinformática

http://www.ebi.ac.uk/2can/index.html

(8)

37

Ligações entre bases de dados

Colaboração Internacional entre

bases de dados de sequências

INSDC

(http://www.insdc.org/)

38

41

TIGR -

T

he

I

nstitute for

G

enomic

R

esearch

l  http://www.tigr.org/

l  Responsável pelas duas sequenciações completas de genomas

de bactérias em 1995

l  Hoje englobado no J. Craig Venter Institute

l  Compreende múltiplas bases de dados incluindo importantes

recursos em genomas microbianos; Genómica Vegetal incluindo o genoma de A. thaliana; vários parasitas; fungos bactérias de ruminantes.

l  Disponibilização de vários softwares

42

Mais locais importantes

l 

ExPASy

Ex

pert

P

rotein

A

nalysis

Sy

stem

http://www.expasy.ch/

Compreende:

l  Análise de sequências proteicas e respectivas estruturas

l  BDs

l  Ferramentas e softwares bioinformáticos

l  FTP server para BDs e software

l  Links para os servers mais importantes e listagem destes

(9)

ExPASy Expert Protein

1. 

Go to Genbank in

http://www.ncbi.nlm.nih.gov/

2. 

Search for GFP in Nucleotide database

3. 

This search retrieves to many results

1.  How many results were retrieved?

2. 

How many results did you obtained in each category?

1.  All, bacteria, RefSeq, mRNA, EST, GSS?

3.  Identify three other databases and defined them

4. 

Limit your search for “gene”

1.  How many results did you obtained?

GFP - Green Fluorescent Protein

1.  Go to the M62653 entry and explore it. 1.  Answer the following questions:

1.  Which is the Latin name of the organism from where the GFP gene

was sequenced?

2.  Which is the taxonomy for this species?

3.  How many entries are in the nucleotide DB for this species?

4.  And how many proteins?

5.  And How many structures?

6.  How many versions are for this accession?

7.  Which is the GI?

8.  How many nucleotides have this sequence?

9.  From what biological material was obtained this sequence?

10.  How many aminoacids has the protein?