Bancos de dados
de biomacromoléculas
e
recuperação de informação
cirauqui@pharma.ufrj.br
O fluxo da informação genética
Bancos de dados
Bancos de dados
Definição de Banco de Dados:
“conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação”
Bancos de dados
Definição de Banco de Dados:
“conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação”
Bancos de dados
Dois tipos de bancos de dados:
Primário: são simples repositórios de dados (ex. seqüências de proteínas)
Secundário: mais completos, informação adicional, mais critérios de
busca (ex. seqüências de proteínas, junto com a função delas, a localização celular, características estruturais,...)
Processo de anotação principalmente manual
Bancos de dados
Características de um bom banco de dados:
Completos e atualizados
Interconexão com outros bancos de dados: plataforma base de buscas avançadas
Permita colocar novas sequencias e corrigir as existentes
Accessíveis na internet
Bancos de dados
Classificados em função dos dados:
Bancos de dados de seqüências de nucleotídeos Bancos de dados de seqüências de proteínas Bancos de dados de nomenclatura Bancos de dados de estruturas de proteínas Bancos de dados de famílias de proteínas
Bancos de dados de integrados e comparativos Bancos de dados de domínios de proteínas
Bancos de dados de seqüências de nucleotídeos
EMBL/DDBJ/GenBank Do NCBI (national center for biotecnology information) Primario, redundante
RefSeq Do NCBI
Secundário, interconectado
Contém DNA genomico, RNA e proteínas
Ensembl Secundário
Banco de dados de GENOMAS
Genome Reviews Secundário, interconectado GENOMAS COMPLETOS
PRACTICA 1. Busca de sequencias de genes
Abrir: RefSeq, ou NCBI Buscar por nucleotide: MCHR1 Refinar a busca por filtro: RefSeq Selecionar HOMO SAPIENS, mRNA.
Bancos de dados de sequências de proteínas
Entrez protein Derivadas ou pegas de outros bancos de dados Primario, redundante
Uniprot Secundário, com MUITA informação adicional Links a MUITOS bancos de dados
PRACTICA 2. Busca de sequencias de proteínas
Abrir: Uniprot Buscar: MCHR1
Pegar human com estrelha amarela (confirmado) Salva a sequencia da proteína em formato fasta
Entra nos modelos de homología e baixa o arquivo de coordenadas de um deles, para uma outra prática
Bancos de dados de nomenclatura
Genew Nomens e símbolos aprovados para genes
GO/GOA Vocabulário para descrever proteoma, função, localização,...
Bancos de dados de estrutura de proteínas
Protein Data Bank (PDB)
Estruturas 3D de proteínas, ácidos nucléicos e carboidratos, obtidas por experimentos de cristalografia de raios X e ressonância magnética nuclear (NMR)
Resid Modificações de proteínas
Molecular Modeling DataBase (MMDB)
Modelos de homología
PRACTICA 3. Busca de estruturas de proteínas
Abrir: pdb
Procurar o nome de alguma proteína
Olhar o artigo onde foi publicada, a sequencia, a referencia em UNIPROT, as condicoes experimentais,...
Bancos de dados de famílias de proteínas
Pfam Classificados por sequencia e domínios
Procura dominios no PDB
Prosite Banco de dados de domínios, motivos, sitos funcionais,...
SCOP
(“Structural Classification of Proteins”)
CATH
(“Protein Structure Classification”)
Classificados por estrutura secundária (só α, só β, α/ β, ...)
PRACTICA 4. Busca de famílias de proteínas
Abrir: pfam
Cola a sequencia do MCHR1 (formato Fasta)
Bancos de dados integrados y comparativos
InterPro
Integr8
Combina vários bancos de dados de famílias de proteínas, unindo os pontos fortes de cada um deles.
Pfam (baseado em domínios) PROSITE (baseado em sitos funcionais) PRINTS (baseado em motivos conservados) PANTHER (baseado em função) Superfamily, Gene3D, Smart,...
Bancos de dados de identificação de proteínas
IntAct
SWISS-2DPAGE
Repositório e sistema de análise de Interações entre proteínas
Resultados dos experimentos de “Two-dimensional polyacrylamide gel electrophoresis” (2D PAGE) e “Sodium Dodecyl Sulfate PAGE” (SDS PAGE), com referencias para outros registros em UniProtKB
Ferramentas de extração de dados
Classificadas em função do termo de busca:
Busca baseada em texto Busca baseada em seqüência Busca baseada em motivo estrutural Busca baseada em estrutura Outras ferramentas de análise
Busca baseada em texto
Entrez Procura dados do NCBI (nucleotídeos, genomas, sequências e estruturas de proteínas, literatura,....)
SRS Procura no EMBL, SWISS-PROT, TrEMBL, PIR,
PDB,...
PRACTICA 5. Busca baseada em texto
Abrir: NCBI ou Entrez Buscar: MCHR1
Busca baseada em sequencia
Busca baseada em sequencia
Identidade→ Presença do mesmo ácido nucléico ou aminoácido na mesma posição em duas seqüências alinhadas
Similaridade→ Apenas quando ocorrer substituições → Dois aminoácidos são considerados similares se um puder ser substituído por outro com propriedades químicas similares
Homologia → Relação evolutiva → Duas seqüências são homólogas se derivarem da mesma seqüência ancestral
Genes Ortólogos→ Tem a mesma função mas ocorrem em espécies diferentes Genes Parálogos→ Possuem ancestral comum e existem num mesmo genoma mas com funções diferentes
Busca baseada em sequência
Busca baseada em sequência
Identidade VS Similaridade
Métodos de busca por sequência:
-1,-1,1,1,0,1,0 0,2,1,2,4,4,1,0
Si / Não Pontuação (score)
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Seq A Seq B
Lacunas (gaps)
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Busca baseada em sequência
Métodos de busca por sequência:
Seqüência completa VS por fragmentos
Seq A Seq B
Busca baseada em sequencia
Blast Similaridade, por fragmentos Proteínas e nucleotídeos PSI-BLAST (homologos distantes) (http://en.wikipedia.org/wiki/BLAST)
Fasta Parecido
Formato “.fasta” aceito em muitos buscadores
PRACTICA 6. Busca por sequência
Abrir: expasy / Blast at ncbi / Blastp Buscar: inserir sequência de MCHR1, Run Blast
Refaz a busca mas desta vez pedindo soluções com estrutura no pdb Selecionar várias estruturas de diferentes proteínas com boa homologia Baixar o alinhamento entre esas proteínas em formato fasta e salvar (selecionar / multiple alignment / download / fasta with gaps)
Exporta alinhamento em formato FASTA
Busca baseada em motivo
ScanProsite Procura na sua sequência a existência ou não de domínios no PROSITE e motivos no UNIPROT
Busca por estrutura 3D Busca por sequencia
Busca baseada em estrutura
Alinhamento estrutural definido pelo RMSD (root mean square distance)
onde di é a distância entre o par de átomos i, e n é o número total de pontos (átomos)
Cadeias laterais nao sao consideradas
O RMSD é feito entre os átomos Cα do esqueleto
Precisamos saber qual Cα da proteína 1 corresponde a qual Cα da proteína 2: alinhamento de sequencia
Busca baseada em estrutura
Que outras possibilidades além do RMSD temos?
Comparação de estruturas secundárias (SSEs), mapas de contato ou interações, medidas de empacotamento das cadeias laterais, conservação de ligações de hidrogênio.
Busca baseada em estrutura
Estrutura representada por uma matriz de distancia
Residuos contíguos na sequencia
Resíduos com contato espacial Distancias comparativas e não distancias absolutas sujeitas a coordenadas fixas no espaço
2D e não 3D
„a“: pode ser distancias entre Cα, entre grupos de átomos, estruturas
Busca baseada em estrutura
VAST
(“Vector Alignment Search Tool”)
Do NCBI
Procura vizinhos estruturais numa base de dados, começando com um set de coordenadas 3D
DALI Do EBI
PRACTICA 7. Busca por estrutura
Abrir: VAST / VAST search
Buscar: abrir uma estrutura .pdb (por exemplo um modelo de homología do MCHR1 pego na prática 2, no link do MMDB no UNIPROT)
Esperar que o programa procure os homólogos estruturai e observar os resultados (para o alinhamento gráfico em 3D precisamos baixar um programa indicado no site: Cn3D
http://www.ncbi.nlm.nih.gov/Structure/vast/VSMmdb.cgi?cmdVSMmdb= StrText&grpid=8473483687603842245&ViewNbr=Yes
Ferramentas de análise Ácidos nucléicos
Alinhamento de seqüências: Clustaw, LALIGN Procurar sitos de restrição de enzimas: Webcutter
Procurar genes: ORF finder, GeneMachine
Procurar elementos de fatores de transcrição no DNA: SignalScan Predição de interações RNA-RNA: FAStRNA
Desenhar primers: PRIDE
Etc . . .
Translação da sequencia de nucleotídeos á aminoácidos: Translate
PRACTICA 8. Achar a sequencia de aminoácidos
a partir da sequencia de nucleotídeos
Abrir: Expasy tools / Translate Introducir a sequencia de DNA ou RNA
at gtcagtggga gccatgaaga agggagtggg 301 gagggcagtt gggcttggag gcggcagcgg ctgccaggct acggaggaag acccccttcc 361 caactgcggg gcttgcgctc cgggacaagg tggcaggcgc tggaggctgc cgcagcctgc 421 gtgggtggag gggagctcag ctcggttgtg ggagcaggcg accggcactg gctggatgga 481 cctggaagcc tcgctgctgc ccactggtcc caacgccagc aacacctctg atggccccga 541 taacctcact tcggcaggat cacctcctcg cacggggagc atctcctaca tcaacatcat 601 catgccttcg gtgttcggca ccatctgcct cctgggcatc atcgggaact ccacggtcat 661 cttcgcggtc gtgaagaagt ccaagctgca ctggtgcaac aacgtccccg acatcttcat 721 catcaacctc tcggtagtag atctcctctt tctcctgggc atgcccttca tgatccacca 781 gctcatgggc aatggggtgt ggcactttgg ggagaccatg tgcaccctca tcacggccat 841 ggatgccaat agtcagttca ccagcaccta catcctgacc gccatggcca ttgaccgcta 901 cctggccact gtccacccca tctcttccac gaagttccgg aagccctctg tggccaccct 961 ggtgatctgc ctcctgtggg ccctctcctt catcagcatc acccctgtgt ggctgtatgc 1021 cagactcatc cccttcccag gaggtgcagt gggctgcggc atacgcctgc ccaacccaga 1081 cactgacctc tactggttca ccctgtacca gtttttcctg gcctttgccc tgccttttgt 1141 ggtcatcaca gccgcatacg tgaggatcct gcagcgcatg acgtcctcag tggcccccgc 1201 ctcccagcgc agcatccggc tgcggacaaa gagggtgacc cgcacagcca tcgccatctg 1261 tctggtcttc tttgtgtgct gggcacccta ctatgtgcta cagctgaccc agttgtccat 1321 cagccgcccg accctcacct ttgtctactt atacaatgcg gccatcagct tgggctatgc 1381 caacagctgc ctcaacccct ttgtgtacat cgtgctctgt gagacgttcc gcaaacgctt 1441 ggtcctgtcg gtgaagcctg cagcccaggg gcagcttcgc gctgtcagca acgctcagac 1501 ggctgacgag gagaggacag aaagcaaagg cacctgatac ttcccctgcc accctgcaca
Cómo pode saber qual é a proteína? Qué ferramenta das estudadas pode usar?
Ferramentas de análise Proteínas
Alinhamento de seqüências: Clustaw, LALIGN, Jalview
Predizer a função da proteína: ConSurf, BINDBLAST,... Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),
Análise de seqüência primaria: SignalP (seqüência sinal), TargetP (localização subcelular), ...
Etc . . .
Predição de propriedades fisico-químicas: ProtParam
Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein
Ferramentas de análise Proteínas
Alinhamento de seqüências: Clustaw, LALIGN, Jalview
Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),
Análise de seqüência primaria: SignalP (seqüência sinal), TargetP (localização subcelular), ...
Predição de propriedades fisico-químicas: ProtParam
Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein
PRACTICA 9. Previsão de Propriedades
físico-químicas das proteínas
Abrir: Expasy tools / ProtParam
Colocar a sequencia de Aminoácidos do MCHR1 Olhar as propriedades calculadas para esta proteína
Ferramentas de análise Proteínas
Alinhamento de seqüências: Clustaw, LALIGN, Jalview
Predizer a função da proteína: ConSurf, BINDBLAST,... Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),
Análise de seqüência primaria: SignalP (seqüência sinal), TargetP (localização subcelular), ...
Etc . . .
Predição de propriedades fisico-químicas: ProtParam
Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein
PRACTICA 10. Alinhamento manual de sequencias
Download: Jalview
Abrir o alinhamento em Fasta que salvamos na prática 5 (Blast)
Ferramentas de análise Proteínas
Alinhamento de seqüências: Clustaw, LALIGN, Jalview
Predizer a função da proteína: ConSurf, BINDBLAST,... Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),
Análise de seqüência primaria: SignalP (seqüência sinal), TargetP (localização subcelular), ...
Etc . . .
Predição de propriedades fisico-químicas: ProtParam
Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein
PRACTICA 11. Visualização de estruturas 3D
Download: Pymol Abrir uma estrutura em pdb
Criar um cartoon dela, selecionar residuos e mostrar-os em outras cores,...
Ferramentas de análise Proteínas
Alinhamento de seqüências: Clustaw, LALIGN, Jalview
Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),
Análise de seqüência primaria: SignalP (seqüência sinal), TargetP (localização subcelular), ...
Predição de propriedades fisico-químicas: ProtParam
Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein, Jnet, Jpred,...
Previsão de estrutura secundária
Existem diferentes métodos para prever a estrutura secundaria (α hélice, β sheet, ...) a partir da sequencia de aminoácidos.
Hoje pode se ter uma correção de 80% na previsão.
Previsão de estrutura secundária
Método Chou-Fasman
Baseado na propensão de cada aminoácido de adotar uma estrutura secundaria. Pouco exato.
Previsão de estrutura secundária
Método GOR
O método GOR também considera os aminoácidos que estão perto na sequencia.
É bem mais exato.
A propriedade intrínseca de aminoácidos para adotar determinada estrutura secundária é influenciada tanto pela sequência quanto pela organização estrutural da proteína;
Dessa forma, a propensão para determinada estrutura secundária não deve ser considerada uma propriedade realmente intrínseca de cada aminoácido e deve ser avaliada de acordo com o contexto
Previsão de estrutura secundária
Redes neurais
Mais além da sequencia de Aminoácidos, aa estrutura secundária depende de outros fatores, como o médio onde a proteína está, a exposicao ao solvente de cada aminoácido, ou mesmo o organismo. Métodos mais recetes incluem informacao sobre a classe estrutural de proteínas, accesibilidade dos aminoácidos ao solvente, número de contato,...
As redes neurais usam informacao conhecida (nos bancos de dados de proteínas) para prever a estrutura secundária.
Previsão de estrutura secundária
Outras considerações
• É aceito que padrões de conservação de resíduos são indicativos de uma estrutura secundária particular. alpha-hélices apresentam uma periodicidade de 3.6, que significa que para hélices com uma face voltada para o cerne protéico e a outra exposta ao solvente, teremos resíduos nas posições i, i+3, i+4 e i+7 (onde i é um resíduo na hélice) em uma face da hélice.
Dessa forma, padrões de conservação de resíduos hidrofóbicos mostrando o padrão i, i+3, i+4, i+7 são altamente indicativos de uma a-hélice.
Previsão de estrutura secundária
Outras considerações
• Similarmente, a geometria de fitas beta indica que resíduos adjacentes possuem suas cadeias laterais apontando para direções opostas. Fitas beta que estão semi enterradas no cerne protéico deverão apresentar resíduos hidrofóbicos nas posições i, i+2, i+4, i+8 etc, e resíduos polares nas posições i+1, i+3, i+5, etc. • Fitas beta que estão completamente inseridas no cerne protéico geralmente
apresentam uma “linha” de resíduos hidrofóbicos, uma vez que ambas as faces estão protegidas do contado com o solvente
Previsão de estrutura secundária
A melhor estratégia
• O ideal é utilizar todas as abordagens de bioinformática possíveis e combiná-las com seu conhecimento sobre a questão para ter uma predição consenso para determinada família de proteínas. • Se você então alinha todas as suas predições (incluindo suas
próprias ideias com base na conservação dos resíduos) com seu alinhamento múltiplo de sequências, você pode obter uma figura consenso da estrutura
Previsão de estrutura secundária
Programas gerais e especializados
Existem muitos programas para previsão de estruturas secundárias, entre eles SSPRED (precisa de um alinhamento de múltiplas sequencias),
NNPREDICT (usa redes neurais), Jpred (Procura no PDB possíveis homólogos
antes de fazer a previsão), Jnet (previsão por aminoácido e redes neurais)
Existem algoritmos para buscas específicas, como proteínas de membrana (TMHMM), segmentos coiled-coil (COILS),...
PRACTICA 12. Previsão de estrutura secundária
Dentro do programa Jalview, está incorporado o Jnet: web service / secondary structure prediction / Jnet
Aparece uma nova janela com a previsão do Jnet
Ferramentas de análise Proteínas
Alinhamento de seqüências: Clustaw, LALIGN, Jalview
Predizer a função da proteína: ConSurf, BINDBLAST,... Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),
Análise de seqüência primaria: SignalP (seqüência sinal), TargetP (localização subcelular), ...
Predição de propriedades fisico-químicas: ProtParam
Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein
RESUMO DO ESTUDADO
Sabemos como buscar la sequencia de un gen o una proteina (blast) y como convertir el gen a proteina (translate).
Una vez conocidos, sabemos buscar info sobre ellos (refseq do ncbi, uniprot). Sabemos fazer previsoes das propriedades fisico quimicas da proteina (protparam) e da sua estrutura secundária (PredictProtein, jnet no jalview).
Sabemos procurar pela estrutura 3D se conhecida (pdb) ou por homologos (blast) para fazer modelos de homología. Sabemos calcular informacoes de familias de proteínas e árvore fologenética destes homólogos (pfam no blast).
Sabemos como visualizar as estruturas 3D (pymol)