Bioinformática
3 - Bases de dados
Bioinformática 2013
2
Tipos de Bases de Dados (BD)
l Primárias: sequência de ácidos nucleicos e proteínas com
vários níveis de anotação
l Primárias compostas: combinações de várias bases de dados
primárias de sequências
l Exemplo: bases de dados não redundantes
l Secundárias: derivadas das primárias: ex. Bases de dados de
domínios proteicos e alinhamentos múltiplos de domínios conservados
l Secundárias compostas: combinações de várias bases de
dados secundárias tais como bases de dados de dmínios proteicos que usam a informação dos domínios de outras bases de dados
Bioinformática 2013
Principais BD Primárias
lÁcidos nucleicos
l
National Center for Biotechnology (NCBI),
l
European Molecular Biology Laboratory (EMBL) at the
European Bioinformatics Institute (EBI)
l
DNA Database of Japan (DDBJ)
l
Proteínas
l
CDS (coding sequence) tradução do GenBank
l
Swiss-Prot: base de dados referência para investigação na
área das proteínas
l
TrEMBL (Translated EMBL): tradução da CDS da BD
EMBL
l
UniProt (the Universal Protein Resource)
Bioinformática 2013
Bases de dados Não-Redundantes
l A maioria das organizações possui BD não redundantes que combinam as diferentes sequências de diferentes BDs de modo a obter um conjunto de sequências coerente.
l Algumas BDs não-redundantes simplesmente eliminam sequências idênticas, outras incluem uma entrada representativa para um conjuno de sequencias relacionadas.
l A BD não redundante de proteínas (“nr”) do NCBI elimina somente sequências identicas.
l Reference Sequence (RefSeq) no NCBI e UniRef (parte do UniProt no EMBL) são BDs não redundantes.
5
Bases de dados Secundárias
l Contêm resultados de análises feitas a BDs primárias l Podem ser de polipéptidos (pp) e conterem padrões, motivos,
domínios, com representações de regiões conservados nas sequências de a.a.
l Exemple: Interpro (http://www.ebi.ac.uk/interpro/) is an integrated
database of predictive protein signatures used for the
classification and automatic annotation of proteins and genomes. InterPro classifies sequences at superfamily, family and subfamily levels, predicting the occurrence of functional domains, repeats and important sites.
l BDs secundárias de DNA contêm padrões como locais de restrição,
sequências de promotores, locais de ligação a proteínas, repetições, etc.
6
BDs de estruturas proteicas
l O maior repositório de estruturas proteicas 3D encontra-se na Protein Data Bank (PDB): http://www.rcsb.org/pdb/
l The PDB archive contains information about experimentally-determined structures of proteins, nucleic acids, and complex assemblies.
Bioinformática 2013
7
Outros tipos de BDs
l Genomas e análise comparativa de genomas
l Organização dos genomas permitindo comparações com as estruturas dos cromossomas e a sintenia entre espécies
l http://www.plantgdb.org/
l Expressão génica
l Resultados de experiências com microarrays
l The ArrayExpress Archive is a database of functional genomics experiments including gene expression where you can query and download data
http://www.ebi.ac.uk/arrayexpress/index.html
l Gene Expression Omnibus at NCBI http://www.ncbi.nlm.nih.gov/geo/
l Comparative RNA Web Site
Bioinformática 2013 9
Microarrays
9 Bioinformática 2013 10Principais BDs de nucleótidos em Bioinformática
l
GenBank (NCBI)
l
http://www.ncbi.nlm.nih.gov/Genbank/
l
Nucleotide Sequence Database (EMBL)
l
http://www.ebi.ac.uk/embl/
l
DNA Databse of Japan (DDBJ)
l
http://www.ddbj.nig.ac.jp/
Bioinformática 2013
NCBI
– National Center for Biotechnology Information
Bioinformática 2013
Últimas estatísticas do NCBI
Entrez – Bases de dados integradas
http://www.ncbi.nlm.nih.gov/sites/gqueryhttp://www.ncbi.nlm.nih.gov/sites/gquery
16
l Divisão do GenBank que contém sequências de cDNA ou "Expressed Sequence Tags", pertencentes a determinados organismos
l Um EST é uma sequência específica de um exão de 50-500pb que
foi sujeita a transcrição reversa do mRNA
l Um EST representa uma parte de um gene:
l Há bibliotecas específicas de tecidos, de condições ambientais
específicas de fase de desenvolvimento, etc
.
Expressed Sequence Tags database
Bioinformática 2013
17
Expressed Sequence Tags
Bioinformática 2013
l A collection of curated, non-redundant genomic DNA, transcript (RNA), and protein sequences produced by NCBI. RefSeqs provide a stable reference for genome annotation, gene identification and characterization, mutation and polymorphism analysis, expression studies, and comparative analyses. The RefSeq collection is accessed through the Nucleotide and Protein databases.
Bioinformática 2013
19
l A public registry of nucleic acid reagents designed for use in a wide variety of biomedical research applications, together with information on reagent distributors, probe effectiveness, and computed sequence similarities.
l The GSS database is a collection of unannotated short single-read primarily genomic sequences from GenBank including random survey sequences clone-end sequences and exon-trapped sequences.
l Esta divisão contêm os seguintes tipos de dados:
l Sequências que resultaram da leitura somente de uma das cadeias de DNA l Sequências das extremidades de cosmídeos, BACs e YACs
l Sequências genómicas contidas entre exões l Sequências alvo de transposões
Genome Survey Sequences Database
Bioinformática 2013
25
Bioinformática 2013 Bioinformática 2013
Sites importantes a explorar
28
Ficheiros de sequências em formato FASTA
l É o formato mais comum para guardar sequências em ficheiros e para submetê-los a aplicações bioinformáticas
l 1ª Linha linha com a descrição da informação; l TEM QUE COMEÇAR COM o caracter >
l O 1º campo tem que ser único de modo a poder comparar diferentes sequências em ficheiros diferentes
l As linhas seguintes possuem a sequência
l Admite espaçoes em branco e linhas vazias l Não admite algarismos
l Um ficheiro pode conter várias sequências ; O início de cada sequência é identificado e reconhecido pela linha de definição que começa sempre por >
Bioinformática 2013
http://www.ebi.ac.uk/embl/Access/index.html
33 Bioinformática 2013http://www.ebi.ac.uk/genomes/
34 Bioinformática 2013E muito mais...
l
Para informação mais completa visitar
http://www.ebi.ac.uk/services/
l
O seguinte local possui importantes recursos educacionais
em Bioinformática
http://www.ebi.ac.uk/2can/index.html
Bioinformática 2013
37
Ligações entre bases de dados
Colaboração Internacional entre
bases de dados de sequências
INSDC
(http://www.insdc.org/)
38
Bioinformática 2013
41
TIGR -
T
he
I
nstitute for
G
enomic
R
esearch
l http://www.tigr.org/
l Responsável pelas duas sequenciações completas de genomas
de bactérias em 1995
l Hoje englobado no J. Craig Venter Institute
l Compreende múltiplas bases de dados incluindo importantes
recursos em genomas microbianos; Genómica Vegetal incluindo o genoma de A. thaliana; vários parasitas; fungos bactérias de ruminantes.
l Disponibilização de vários softwares
Bioinformática 2013
42
Mais locais importantes
l
ExPASy
Ex
pert
P
rotein
A
nalysis
Sy
stem
http://www.expasy.ch/
Compreende:
l Análise de sequências proteicas e respectivas estruturas
l BDs
l Ferramentas e softwares bioinformáticos
l FTP server para BDs e software
l Links para os servers mais importantes e listagem destes
Bioinformática 2013
ExPASy Expert Protein
Bioinformática 2013
1.
Go to Genbank in
http://www.ncbi.nlm.nih.gov/
2.
Search for GFP in Nucleotide database
3.
This search retrieves to many results
1. How many results were retrieved?
2.
How many results did you obtained in each category?
1. All, bacteria, RefSeq, mRNA, EST, GSS?
3. Identify three other databases and defined them
4.
Limit your search for “gene”
1. How many results did you obtained?
GFP - Green Fluorescent Protein
Bioinformática 2013
1. Go to the M62653 entry and explore it. 1. Answer the following questions:
1. Which is the Latin name of the organism from where the GFP gene
was sequenced?
2. Which is the taxonomy for this species?
3. How many entries are in the nucleotide DB for this species?
4. And how many proteins?
5. And How many structures?
6. How many versions are for this accession?
7. Which is the GI?
8. How many nucleotides have this sequence?
9. From what biological material was obtained this sequence?
10. How many aminoacids has the protein?