Bancos de dados de biomacromoléculas e recuperação de informação

(1)

Bancos de dados

de biomacromoléculas

e

recuperação de informação

cirauqui@pharma.ufrj.br

O fluxo da informação genética

Bancos de dados

(2)

Definição de Banco de Dados:

“conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação”

Bancos de dados

Definição de Banco de Dados:

“conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação”

Bancos de dados

Dois tipos de bancos de dados:

Primário: são simples repositórios de dados (ex. seqüências de proteínas)

Secundário: mais completos, informação adicional, mais critérios de

busca (ex. seqüências de proteínas, junto com a função delas, a localização celular, características estruturais,...)

Processo de anotação principalmente manual

Bancos de dados

Características de um bom banco de dados:

Completos e atualizados

Interconexão com outros bancos de dados: plataforma base de buscas avançadas

Permita colocar novas sequencias e corrigir as existentes

Accessíveis na internet

Bancos de dados

Classificados em função dos dados:

Bancos de dados de seqüências de nucleotídeos Bancos de dados de seqüências de proteínas Bancos de dados de nomenclatura Bancos de dados de estruturas de proteínas Bancos de dados de famílias de proteínas

Bancos de dados de integrados e comparativos Bancos de dados de domínios de proteínas

(3)

Bancos de dados de seqüências de nucleotídeos

EMBL/DDBJ/GenBank Do NCBI (national center for biotecnology information) Primario, redundante

RefSeq Do NCBI

Secundário, interconectado

Contém DNA genomico, RNA e proteínas

Ensembl Secundário

Banco de dados de GENOMAS

Genome Reviews Secundário, interconectado GENOMAS COMPLETOS

PRACTICA 1. Busca de sequencias de genes

Abrir: RefSeq, ou NCBI Buscar por nucleotide: MCHR1 Refinar a busca por filtro: RefSeq Selecionar HOMO SAPIENS, mRNA.

(4)

Bancos de dados de sequências de proteínas

Entrez protein Derivadas ou pegas de outros bancos de dados Primario, redundante

Uniprot Secundário, com MUITA informação adicional Links a MUITOS bancos de dados

PRACTICA 2. Busca de sequencias de proteínas

Abrir: Uniprot Buscar: MCHR1

Pegar human com estrelha amarela (confirmado) Salva a sequencia da proteína em formato fasta

Entra nos modelos de homología e baixa o arquivo de coordenadas de um deles, para uma outra prática

(5)

(6)

Bancos de dados de nomenclatura

Genew Nomens e símbolos aprovados para genes

GO/GOA Vocabulário para descrever proteoma, função, localização,...

Bancos de dados de estrutura de proteínas

Protein Data Bank (PDB)

Estruturas 3D de proteínas, ácidos nucléicos e carboidratos, obtidas por experimentos de cristalografia de raios X e ressonância magnética nuclear (NMR)

Resid Modificações de proteínas

Molecular Modeling DataBase (MMDB)

Modelos de homología

PRACTICA 3. Busca de estruturas de proteínas

Abrir: pdb

Procurar o nome de alguma proteína

Olhar o artigo onde foi publicada, a sequencia, a referencia em UNIPROT, as condicoes experimentais,...

(7)

Bancos de dados de famílias de proteínas

Pfam Classificados por sequencia e domínios

Procura dominios no PDB

Prosite Banco de dados de domínios, motivos, sitos funcionais,...

SCOP

(“Structural Classification of Proteins”)

CATH

(“Protein Structure Classification”)

Classificados por estrutura secundária (só α, só β, α/ β, ...)

(8)

PRACTICA 4. Busca de famílias de proteínas

Abrir: pfam

Cola a sequencia do MCHR1 (formato Fasta)

Bancos de dados integrados y comparativos

InterPro

Integr8

Combina vários bancos de dados de famílias de proteínas, unindo os pontos fortes de cada um deles.

Pfam (baseado em domínios) PROSITE (baseado em sitos funcionais) PRINTS (baseado em motivos conservados) PANTHER (baseado em função) Superfamily, Gene3D, Smart,...

(9)

Bancos de dados de identificação de proteínas

IntAct

SWISS-2DPAGE

Repositório e sistema de análise de Interações entre proteínas

Resultados dos experimentos de “Two-dimensional polyacrylamide gel electrophoresis” (2D PAGE) e “Sodium Dodecyl Sulfate PAGE” (SDS PAGE), com referencias para outros registros em UniProtKB

Ferramentas de extração de dados

Classificadas em função do termo de busca:

Busca baseada em texto Busca baseada em seqüência Busca baseada em motivo estrutural Busca baseada em estrutura Outras ferramentas de análise

Busca baseada em texto

Entrez Procura dados do NCBI (nucleotídeos, genomas, sequências e estruturas de proteínas, literatura,....)

SRS Procura no EMBL, SWISS-PROT, TrEMBL, PIR,

PDB,...

PRACTICA 5. Busca baseada em texto

Abrir: NCBI ou Entrez Buscar: MCHR1

(10)

Busca baseada em sequencia

Identidade→ Presença do mesmo ácido nucléico ou aminoácido na mesma posição em duas seqüências alinhadas

Similaridade→ Apenas quando ocorrer substituições → Dois aminoácidos são considerados similares se um puder ser substituído por outro com propriedades químicas similares

Homologia → Relação evolutiva → Duas seqüências são homólogas se derivarem da mesma seqüência ancestral

Genes Ortólogos→ Tem a mesma função mas ocorrem em espécies diferentes Genes Parálogos→ Possuem ancestral comum e existem num mesmo genoma mas com funções diferentes

Busca baseada em sequência

(11)

Identidade VS Similaridade

Métodos de busca por sequência:

-1,-1,1,1,0,1,0 0,2,1,2,4,4,1,0

Si / Não Pontuação (score)

Seqüência completa VS por fragmentos

Seq A Seq B

Lacunas (gaps)

Seq A Seq B

(12)

Seq A Seq B

(13)

Seq A Seq B

Busca baseada em sequencia

Blast Similaridade, por fragmentos Proteínas e nucleotídeos PSI-BLAST (homologos distantes) (http://en.wikipedia.org/wiki/BLAST)

Fasta Parecido

Formato “.fasta” aceito em muitos buscadores

PRACTICA 6. Busca por sequência

Abrir: expasy / Blast at ncbi / Blastp Buscar: inserir sequência de MCHR1, Run Blast

Refaz a busca mas desta vez pedindo soluções com estrutura no pdb Selecionar várias estruturas de diferentes proteínas com boa homologia Baixar o alinhamento entre esas proteínas em formato fasta e salvar (selecionar / multiple alignment / download / fasta with gaps)

(14)

Exporta alinhamento em formato FASTA

Busca baseada em motivo

ScanProsite Procura na sua sequência a existência ou não de domínios no PROSITE e motivos no UNIPROT

Busca por estrutura 3D Busca por sequencia

(15)

Busca baseada em estrutura

Alinhamento estrutural definido pelo RMSD (root mean square distance)

onde di é a distância entre o par de átomos i, e n é o número total de pontos (átomos)

Cadeias laterais nao sao consideradas

O RMSD é feito entre os átomos Cα do esqueleto

Precisamos saber qual Cα da proteína 1 corresponde a qual Cα da proteína 2: alinhamento de sequencia

Que outras possibilidades além do RMSD temos?

Comparação de estruturas secundárias (SSEs), mapas de contato ou interações, medidas de empacotamento das cadeias laterais, conservação de ligações de hidrogênio.

Estrutura representada por uma matriz de distancia

Residuos contíguos na sequencia

Resíduos com contato espacial Distancias comparativas e não distancias absolutas sujeitas a coordenadas fixas no espaço

2D e não 3D

„a“: pode ser distancias entre Cα, entre grupos de átomos, estruturas

VAST

(“Vector Alignment Search Tool”)

Do NCBI

Procura vizinhos estruturais numa base de dados, começando com um set de coordenadas 3D

DALI Do EBI

(16)

PRACTICA 7. Busca por estrutura

Abrir: VAST / VAST search

Buscar: abrir uma estrutura .pdb (por exemplo um modelo de homología do MCHR1 pego na prática 2, no link do MMDB no UNIPROT)

Esperar que o programa procure os homólogos estruturai e observar os resultados (para o alinhamento gráfico em 3D precisamos baixar um programa indicado no site: Cn3D

http://www.ncbi.nlm.nih.gov/Structure/vast/VSMmdb.cgi?cmdVSMmdb= StrText&grpid=8473483687603842245&ViewNbr=Yes

(17)

Ferramentas de análise Ácidos nucléicos

Alinhamento de seqüências: Clustaw, LALIGN Procurar sitos de restrição de enzimas: Webcutter

Procurar genes: ORF finder, GeneMachine

Procurar elementos de fatores de transcrição no DNA: SignalScan Predição de interações RNA-RNA: FAStRNA

Desenhar primers: PRIDE

Etc . . .

Translação da sequencia de nucleotídeos á aminoácidos: Translate

PRACTICA 8. Achar a sequencia de aminoácidos

a partir da sequencia de nucleotídeos

Abrir: Expasy tools / Translate Introducir a sequencia de DNA ou RNA

at gtcagtggga gccatgaaga agggagtggg 301 gagggcagtt gggcttggag gcggcagcgg ctgccaggct acggaggaag acccccttcc 361 caactgcggg gcttgcgctc cgggacaagg tggcaggcgc tggaggctgc cgcagcctgc 421 gtgggtggag gggagctcag ctcggttgtg ggagcaggcg accggcactg gctggatgga 481 cctggaagcc tcgctgctgc ccactggtcc caacgccagc aacacctctg atggccccga 541 taacctcact tcggcaggat cacctcctcg cacggggagc atctcctaca tcaacatcat 601 catgccttcg gtgttcggca ccatctgcct cctgggcatc atcgggaact ccacggtcat 661 cttcgcggtc gtgaagaagt ccaagctgca ctggtgcaac aacgtccccg acatcttcat 721 catcaacctc tcggtagtag atctcctctt tctcctgggc atgcccttca tgatccacca 781 gctcatgggc aatggggtgt ggcactttgg ggagaccatg tgcaccctca tcacggccat 841 ggatgccaat agtcagttca ccagcaccta catcctgacc gccatggcca ttgaccgcta 901 cctggccact gtccacccca tctcttccac gaagttccgg aagccctctg tggccaccct 961 ggtgatctgc ctcctgtggg ccctctcctt catcagcatc acccctgtgt ggctgtatgc 1021 cagactcatc cccttcccag gaggtgcagt gggctgcggc atacgcctgc ccaacccaga 1081 cactgacctc tactggttca ccctgtacca gtttttcctg gcctttgccc tgccttttgt 1141 ggtcatcaca gccgcatacg tgaggatcct gcagcgcatg acgtcctcag tggcccccgc 1201 ctcccagcgc agcatccggc tgcggacaaa gagggtgacc cgcacagcca tcgccatctg 1261 tctggtcttc tttgtgtgct gggcacccta ctatgtgcta cagctgaccc agttgtccat 1321 cagccgcccg accctcacct ttgtctactt atacaatgcg gccatcagct tgggctatgc 1381 caacagctgc ctcaacccct ttgtgtacat cgtgctctgt gagacgttcc gcaaacgctt 1441 ggtcctgtcg gtgaagcctg cagcccaggg gcagcttcgc gctgtcagca acgctcagac 1501 ggctgacgag gagaggacag aaagcaaagg cacctgatac ttcccctgcc accctgcaca

(18)

Cómo pode saber qual é a proteína? Qué ferramenta das estudadas pode usar?

Ferramentas de análise Proteínas

Alinhamento de seqüências: Clustaw, LALIGN, Jalview

Predizer a função da proteína: ConSurf, BINDBLAST,... Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),

Análise de seqüência primaria: SignalP (seqüência sinal), TargetP (localização subcelular), ...

Etc . . .

Predição de propriedades fisico-químicas: ProtParam

Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein

Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),

PRACTICA 9. Previsão de Propriedades

físico-químicas das proteínas

Abrir: Expasy tools / ProtParam

Colocar a sequencia de Aminoácidos do MCHR1 Olhar as propriedades calculadas para esta proteína

(19)

Etc . . .

PRACTICA 10. Alinhamento manual de sequencias

Download: Jalview

Abrir o alinhamento em Fasta que salvamos na prática 5 (Blast)

(20)

Etc . . .

PRACTICA 11. Visualização de estruturas 3D

Download: Pymol Abrir uma estrutura em pdb

Criar um cartoon dela, selecionar residuos e mostrar-os em outras cores,...

Analisar estrutura 3D: RasMol e Pymol (visualização), LOCK (comparação e sobreposição de várias estruturas),

Previsão de estrutura terciaria: Swiss-Model (modelos de homología) Previsão de estrutura secundária: PredictProtein, Jnet, Jpred,...

(21)

Previsão de estrutura secundária

Existem diferentes métodos para prever a estrutura secundaria (α hélice, β sheet, ...) a partir da sequencia de aminoácidos.

Hoje pode se ter uma correção de 80% na previsão.

Método Chou-Fasman

Baseado na propensão de cada aminoácido de adotar uma estrutura secundaria. Pouco exato.

Método GOR

O método GOR também considera os aminoácidos que estão perto na sequencia.

É bem mais exato.

A propriedade intrínseca de aminoácidos para adotar determinada estrutura secundária é influenciada tanto pela sequência quanto pela organização estrutural da proteína;

Dessa forma, a propensão para determinada estrutura secundária não deve ser considerada uma propriedade realmente intrínseca de cada aminoácido e deve ser avaliada de acordo com o contexto

Redes neurais

Mais além da sequencia de Aminoácidos, aa estrutura secundária depende de outros fatores, como o médio onde a proteína está, a exposicao ao solvente de cada aminoácido, ou mesmo o organismo. Métodos mais recetes incluem informacao sobre a classe estrutural de proteínas, accesibilidade dos aminoácidos ao solvente, número de contato,...

As redes neurais usam informacao conhecida (nos bancos de dados de proteínas) para prever a estrutura secundária.

(22)

Outras considerações

• É aceito que padrões de conservação de resíduos são indicativos de uma estrutura secundária particular. alpha-hélices apresentam uma periodicidade de 3.6, que significa que para hélices com uma face voltada para o cerne protéico e a outra exposta ao solvente, teremos resíduos nas posições i, i+3, i+4 e i+7 (onde i é um resíduo na hélice) em uma face da hélice.

Dessa forma, padrões de conservação de resíduos hidrofóbicos mostrando o padrão i, i+3, i+4, i+7 são altamente indicativos de uma a-hélice.

Outras considerações

• Similarmente, a geometria de fitas beta indica que resíduos adjacentes possuem suas cadeias laterais apontando para direções opostas. Fitas beta que estão semi enterradas no cerne protéico deverão apresentar resíduos hidrofóbicos nas posições i, i+2, i+4, i+8 etc, e resíduos polares nas posições i+1, i+3, i+5, etc. • Fitas beta que estão completamente inseridas no cerne protéico geralmente

apresentam uma “linha” de resíduos hidrofóbicos, uma vez que ambas as faces estão protegidas do contado com o solvente

A melhor estratégia

• O ideal é utilizar todas as abordagens de bioinformática possíveis e combiná-las com seu conhecimento sobre a questão para ter uma predição consenso para determinada família de proteínas. • Se você então alinha todas as suas predições (incluindo suas

próprias ideias com base na conservação dos resíduos) com seu alinhamento múltiplo de sequências, você pode obter uma figura consenso da estrutura

Programas gerais e especializados

Existem muitos programas para previsão de estruturas secundárias, entre eles SSPRED (precisa de um alinhamento de múltiplas sequencias),

NNPREDICT (usa redes neurais), Jpred (Procura no PDB possíveis homólogos

antes de fazer a previsão), Jnet (previsão por aminoácido e redes neurais)

Existem algoritmos para buscas específicas, como proteínas de membrana (TMHMM), segmentos coiled-coil (COILS),...

(23)

PRACTICA 12. Previsão de estrutura secundária

Dentro do programa Jalview, está incorporado o Jnet: web service / secondary structure prediction / Jnet

Aparece uma nova janela com a previsão do Jnet

RESUMO DO ESTUDADO

Sabemos como buscar la sequencia de un gen o una proteina (blast) y como convertir el gen a proteina (translate).

Una vez conocidos, sabemos buscar info sobre ellos (refseq do ncbi, uniprot). Sabemos fazer previsoes das propriedades fisico quimicas da proteina (protparam) e da sua estrutura secundária (PredictProtein, jnet no jalview).

Sabemos procurar pela estrutura 3D se conhecida (pdb) ou por homologos (blast) para fazer modelos de homología. Sabemos calcular informacoes de familias de proteínas e árvore fologenética destes homólogos (pfam no blast).

Sabemos como visualizar as estruturas 3D (pymol)

(24)

O QUE VAMOS ESTUDAR AGORA

Fazer previsoes de estrutura TERCIARIA (3D) a partir da sequencia de nucleotídeos, usando ou nao um homólogo estrutural