• Nenhum resultado encontrado

Modelagem da estrutura de proteínas baseada em restrições de distância obtidas por ligação cruzada e espectrometria de massas  

N/A
N/A
Protected

Academic year: 2021

Share "Modelagem da estrutura de proteínas baseada em restrições de distância obtidas por ligação cruzada e espectrometria de massas  "

Copied!
158
0
0

Texto

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS INSTITUTO DE QUÍMICA

ÁLLAN JHONATHAN RAMOS FERRARI

Modelagem da estrutura de proteínas baseada em restrições de distância obtidas por ligação cruzada e espectrometria de massas

CAMPINAS 2019

(2)

ÁLLAN JHONATHAN RAMOS FERRARI

MODELAGEM DA ESTRUTURA DE PROTEÍNAS BASEADA EM RESTRIÇÕES DE DISTÂNCIA OBTIDAS POR LIGAÇÃO CRUZADA E ESPECTROMETRIA DE

MASSAS

Tese de Doutorado apresentada ao Instituto de Química da Universidade Estadual de Campinas

como parte dos requisitos exigidos para a obtenção do título de Doutor em Ciências.

Orientador: Prof. Dr. Fabio Cesar Gozzo Coorientador: Prof. Dr. Leandro Martínez

O arquivo digital corresponde à versão final da Tese defendida pelo aluno Állan Jhonathan Ramos Ferrari

e orientada pelo Prof. Dr. Fabio Cesar Gozzo

CAMPINAS 2019

(3)
(4)

BANCA EXAMINADORA

Prof. Dr. Fabio Cesar Gozzo (Orientador)

Profa. Dra. Tatiana De Arruda Campos Brasil de Souza (FIOCRUZ/PR)

Profa. Dra. Adriana Franco Paes Leme (LNBIO)

Profa. Dra. Denize Cristina Favaro (IQ-Unicamp)

Profa Dra. Luciana Gonzaga de Oliveira (IQ-Unicamp)

A Ata da defesa assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa da Unidade.

Este exemplar corresponde à redação final da Tese de Doutorado defendida pelo aluno ÁLLAN JHONATHAN RAMOS FERRARI, aprovada pela Comissão Julgadora em 26 de setembro de 2019.

(5)

“O bicho

Vi ontem um bicho Na imundície do pátio Catando comida entre os detritos.

Quando achava alguma coisa, Não examinava nem cheirava: Engolia com voracidade.

O bicho não era um cão, Não era um gato, Não era um rato.

O bicho, meu Deus, era um homem.”

(Manuel Bandeira, 1947)

“O rei está nu.”

(6)

Dedico esta tese a minha família e aos amigos que eu fiz durante essa jornada. Em especial, ao Miguel, Gabriel, Lorena, Rebeca, Murilo, e Helena: Vocês ainda são pequenos. Meu desejo é que eu consiga ajudar vocês a sonhar grande e que o sonho de

(7)

AGRADECIMENTOS

Ao Fabio, por ter me aceito no grupo e proposto esse trabalho interdisciplinar. Obrigado pelo bom convívio e por acreditar na qualidade do meu trabalho e das minhas ideias e pelas várias oportunidades que o laboratório me ofereceu.

Ao Leandro, por ter contribuído tanto para a evolução desse trabalho. Os resultados que estão descritos aqui são em grande medida consequência direta da sua dedicação. Sem dúvida, foi uma ótima aquisição te ter como meu coorientador e parceiro de trabalho! Obrigado também por ter me aceito nas várias disciplinas da pós e da graduação durante o doutorado, pela sua amizade, por ter acreditado no meu trabalho e me ajudado a manter os pés no chão, ter metas e fechar os trabalhos.

Esse trabalho também é o resultado do desenvolvimento experimental dos meus colegas Hugo e Mariana, com os trabalhos de novos reagentes para ligação cruzada e o teste em alvos, como a SalBIII; dos dados gerados no espectrômetro de massas no grupo de Toxiconologia na Fiocruz do Rio de Janeiro, na pessoa da Ana Gisele; e do desenvolvimento do software análises de espectros, SIM-XL, nas pessoas do Diogo, Paulinho e, minha também colega de laboratório, Tatiani. Obrigado pela contribuição de vocês.

Aos amigos que eu cultivei nesses últimos anos no laboratório Dalton. Sem dúvida vocês foram as melhores aquisições dessa pós-graduação. Torço demais para o sucesso de cada um de vocês no caminho que vocês decidirem trilhar e não mediria esforços para contribuir para isso! Obrigado Adriana, Lili, Marcel, Hector, Alex, Hugo, Gisel e Renata pelo excelente convívio. Mariana, André, Tati e Renan obrigado pela amizade nos últimos anos. Vocês me ensinaram muito com a postura de vocês. Ao Bruno e Eduardo: vocês são pessoas pra vida! Obrigado pela convivência diária, pelas discussões científicas, pelos desabafos, as risadas e o apoio fundamental que vocês me dispensaram nos últimos tempos. Que a gente tenha muitas oportunidades de cultivar essa amizade em vários outros momentos da vida. À Luana, por tudo isso e muito mais. Você é minha irmã do peito. Obrigado por tudo!

Aos vários professores do Instituto de Química que tive a oportunidade de conviver de alguma forma. Em especial, as Professoras Márcia, Buba e Luciana, e os

(8)

Professores Pilli, Ítalo, Coelho, Júlio, Sigoli, Airton, Juliano, meu muito obrigado. Foram 4 PEDs C e 3 PEDs B nesses últimos 6,5 anos, muitas oportunidades de aprendizado com vocês e com os alunos (e como eles ensinam!).

Ao Prof. David Baker, por ter me aceito no seu laboratório e me ensinado tanto pelo seu exemplo de liderança científica e condução ativa da carreira das pessoas ao seu redor. Você é realmente uma fonte de inspiração e me fez sonhar em chegar muito mais longe e ser muito melhor. Ao meu principal mentor na UW, Benjamin Basanta, você é incrível! Obrigado por ter pego na minha mão e me ensinado os primeiros passos no mundo como designer de proteínas. Nunca a máxima “fazer as perguntar certas” fez tanto sentido quanto durante o tempo que estive do teu lado. A tua garra e profissionalismo são admiráveis e os excelentes resultados não poderiam ser diferentes. Foi um grande aprendizado. Ao Matthew, por ter gasto vários dias me ensinando sobre yeast display, cell sorting e ter me ajudado com os experimentos de cristalografia. Também por me ajudar a levar de forma leve minha síndrome do impostor.

Aos meus amigos de Seattle, vocês fazem muita falta. Aos amigos brasileiros fora do Brasil Ju, João, Flávia, Larissa, Lucas, Laura, Thiago, e os rommies Zuzana, Linh, John, Josh, Jiwoon, Yu, Yuni, Bill e Maura, vocês ficaram com um pedaço de mim ai em Seattle (ou levaram pelo mundo). E, claro, a Lívia. Seattle me deu você de presente, a amiga que começou comigo uma jornada que infelizmente tinha hora pra acabar. Vamos seguindo o jogo da vida!

A minha mãe, Cleide, por todo apoio, amor, dedicação e por sempre ter colocado a minha educação em primeiro lugar. A minha familia aqui de São Paulo, Dilei, Onélia, Oliete, Géssica, Gleu, Jaime Henrique, Thaís, João Paulo, Carol, Wilton, Jaime, Lito, César, Gleison (in memorian), Rafael, Roseli, Regina, Miguel, Gabriel, Lorena, Rebeca, Murilo e Helena. Obrigado por fazerem a vida leve e me ajudar a não viver em uma bolha.

Aos vários amigos de Londrina que eu deixei da convivência mais próxima pra seguir um sonho. Laís, Marlon, Naiara, Valdinei, Amanda, Jonathan, Ronaldo, Vera, Elaine, Larissa, Letícia, Chico, Saulo, Flavia, Paola e Renato e tantos outros da IASD do Parigot, IASD Central de Londrina, do Colégio Adventista de Londrina e da

(9)

Universidade Estadual de Londrina. Obrigado pela amizade e por torcerem por mim sempre. Muitos de vocês tiveram papel central no meu processo de formação!

Aos profissionais do SAPPE/Unicamp que me ajudaram nessa minha trajetória através da psicanálise e na busca por autoconhecimento. Em especial Marília, a Fernanda e, mais recentemente, ao Bruno. Obrigado!

Ao Instituto de Química da UNICAMP, pela infraestrutura, e aos seus funcionários que colaboraram direta ou indiretamente para a realização deste trabalho.

Aos queridos amigos Bruno, Tati, Renan e Marlon pela valiosa revisão do conteúdo desta tese, pelas opiniões e sugestões.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001.

O presente trabalho foi realizado do Conselho Nacional de Pesquisa e Desenvolvimento (CNPQ) processo 140378/2015-4.

O presente trabalho foi realizado com apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) processo 2016/13195-2.

(10)

RESUMO

Modelagem da estrutura de proteínas baseada em restrições de distância obtidas por ligação cruzada e espectrometria de massas. Ligação cruzada associada à espectrometria de massas é um método experimental que permite obter restrições de distâncias entre resíduos de aminoácidos. Estas restrições podem ser utilizadas para investigar a estrutura terciária e quaternária de biomoléculas. A princípio, tais restrições fornecem somente um limite superior de distâncias ao longo da superfície da biomolécula. Embora haja grande sucesso na aplicação dessa técnica para a caracterização de complexos proteicos, até o momento tentativas de utilizar restrições dessa natureza para determinação da estrutura terciária de proteínas não têm sido amplamente bem sucedidas. Isso indica a necessidade de estratégias especificamente elaboradas para representar essas restrições dentro dos algoritmos de modelagem. Nesta tese, desenvolvemos o TopoLink, um pacote para a avaliação de modelos estruturais a partir dos dados de ligação cruzada. TopoLink mostra resultados superiores aos programas descritos na literatura, e é disponibilizado gratuitamente em http://m3g.iqm.unicamp.br/topolink como código fonte com uma interface gráfica para Windows. TopoLink foi utilizado para calcular a probabilidade de satisfação da distância topológica da espécie de ligação cruzada em estruturas de alta resolução como função da distância Euclidiana entre os resíduos de aminoácidos. Essas distribuições de probabilidade são, então, convertidas em um conjunto funções de energia potencial dependentes do tamanho do agente de ligação cruzada utilizado e dos pares de resíduos, dando origem ao primeiro campo de forças estatístico para ligação cruzada (XLFF). Como o potencial é descrito em termos de distância Euclidiana, pode ser facilmente incorporado nos atuais métodos e softwares disponíveis. O campo de forças foi implementado e é distribuído para ser utilizado dentro do protocolo ab initio do Rosetta. A estratégia desenvolvida aponta que os limites superiores das restrições de distância devem ser mais curtos do que os usualmente utilizados na literatura. O teste de modelagem de 19 alvos de vários tamanhos e topologias mostra que o campo de forças completo melhora expressivamente a qualidade dos modelos obtidos em relação às estratégias heurísticas anteriores de representação. Também demonstramos a melhoria associada ao se considerar as restrições experimentais amostradas nas vizinhanças conformacionais da estrutura cristalográfica. Esses resultados viabilizam a utilização de restrições dos experimentos de ligação cruzada para modelar a estrutura terciária de proteínas, especialmente para as quais outros dados estruturais não estão disponíveis ou são insuficientes para caracterizar seu enovelamento.

Palavras-chave: modelagem de proteínas; ligação cruzada; espectrometria de

massas; proteômica estrutural; estrutura de proteínas; Rosetta; campo de forças estatístico

(11)

ABSTRACT

Modeling protein structure based on constraints obtained from chemical cross-linking and mass spectrometry. Chemical cross-cross-linking/mass spectrometry is an

experimental method that allows one to obtain distance constraints between amino acid residues. These constraints, in turn, can be used to investigate the tertiary and quaternary structure of biomolecules. In principle, these constraints provide only an upper limit along the surface of the biomolecule. Although there is great success on the use of this technique for structural characterization of protein complexes, attempts to use such constraints to determine the tertiary structure of proteins have not been successful. This indicates the need of specifically designed strategies for the representation of these constraints within modeling algorithms. In this thesis, we develop TopoLink, a package for structural model evaluation with cross-linking data. TopoLink shows superior results compared to previous software described in the literature and is made freely available at http://m3g.iqm.unicamp.br/topolink as source code with a user-friendly graphical interface for Windows. TopoLink was used to compute the probability of satisfying topological distance of a cross-linking specie in high-resolution structures as a function of the Euclidean distance between the residues involved. These probability distributions are then converted in a set of potential energy functions dependent on the cross-linker length and the amino acid residue pairs, generating the first cross-linking force field (XLFF). As the potential is described in terms of Euclidean distance, it can be easily incorporated in most current methods and software available. The force field was implemented, and it is distributed, to be used with Rosetta ab initio protocol. The strategy developed shows that the upper limits of distance constraints should be shorter than it is usually used in the literature. The benchmark test of 19 protein targets of various sizes and topologies shows that the complete force field expressively improves the quality of models obtained in comparison with previous heuristic strategies of representation. We also demonstrate the improvement associated with considering the experimental constraints from sampling the conformation neighborhoods of the crystallographic structure. These results bring to reality the possibility of modeling from XLMS constraints the tertiary structures of proteins, especially for those which other structural data is not available or is insufficient to characterize the protein fold.

Keywords: protein modeling; chemical cross-linking; mass spectrometry; structural

(12)

LISTA DE FIGURAS

Figura 1: A liberdade de movimento dos átomos da cadeia principal de uma cadeia polipeptídica. A condensação de dois aminoácidos dá origem a ligação peptídica de estrutura planar com restrição de rotação entre os átomos C-N (azul sombreado). As ligações N-C e C-C, entretanto, em virtude de seu caráter de ligação simples podem rotacionar livremente, formando ângulos de valor variável  e . Um ângulo  de 0o corresponde a conformação na qual o N-H e o C-R

apontam na mesma direção, enquanto que um ângulo de 180o corresponde a

conformação na qual eles apontam em direções opostas. Os valores de  correspondem, semelhantemente, à mesma análise para o ângulo entre R e C-O. Como demonstrado por Ramachandran, esses ângulos não assumem uma distribuição aleatória e estão associados diretamente à formação de estruturas secundárias. [Figura extraída da referência 1] ... 23 Figura 2: Elementos de estrutura secundária em proteínas. O enovelamento de

seguimentos locais da sequência de proteínas pode dar origem a estruturas regulares como as alfas-hélices (em verde) e as folhas-beta (em azul). Esses elementos têm como principal característica a presença de ligações de hidrogênio entre as amidas da cadeia principal. Duas representações estão demonstradas para cada tipo de estrutura secundária: representação em cartoon (A) e (C) em

sticks (B) e (D). ... 23

Figura 3: Os quatro níveis hierárquicos da estrutura de proteínas. Os diferentes níveis são exemplificados para a estrutura da proteína hemoglobina (PDB ID 1C7D). O primeiro nível estrutural se refere à sequência de aminoácidos da cadeia. O segundo nível estrutural inclui segmentos de alfa-hélices e folhas-beta (não presentes nesse exemplo). O terceiro nível se refere ao arranjo tridimensional compacto resultante das diversas forças físicas atuantes no enovelamento proteico. Finalmente, a estrutura quaternária se refere ao arranjo entre cadeias polipeptídicas que resultam em uma unidade supramolecular biologicamente ativa... 24 Figura 4: Esquema da paisagem energética representando o processo de

enovelamento de proteínas em (A) duas dimensões e (B) três dimensões. ... 27 Figura 5: Estatísticas das estruturas de proteínas do Protein Data Bank. (A)

Crescimento anual no número de estruturas depositadas. (B) Porcentagem de estruturas de proteínas resolvidas por Difração de Raios-X (DRX), Ressonância Magnética Nuclear (RMN) e Crio Microscopia Eletrônica (cryo-EM). ... 30 Figura 6: Estatísticas do número de novos enovelamentos ao longo dos anos como

classificados pelo CATH até 2013. Entre 2013 e 2017 somente 16 novos enovelamentos foram adicionados a essa estatística. ... 31 Figura 7: Crescimento do número de sequências de proteínas depositadas nos bancos

de dados SwissProt e TrEMBL no tempo. [gráfico extraído do banco de dados público] ... 34 Figura 8: Evolução da qualidade dos modelos de predição da estrutura terciária de

proteínas submetidos nas competições do CASP ao longo dos anos. ... 35 Figura 9: Predição da estrutura terciária de proteínas pelo servidor I-Tasser. [Figura

(13)

Figura 10: Algoritmo de novo para predição de estruturas utilizado pelo Rosetta. Rosetta utiliza (a) uma biblioteca de fragmentos contento informações dos ângulos de diedro  e  que capturam as tendências conformacionais locais. O algoritmo prossegue (b) combinando esses diversos fragmentos para enovelar a sequência de interesse. (c) uma função de energia representando aspectos de baixa resolução é utilizada, o que resulta em uma superfície potencial menos rugosa e com o mínimo global mais largo. As estruturas de menor energia são selecionadas para etapa de minimização que direciona as estruturas para o mínimo global. [Figura retirada da referência 30, Kaufmann Kw et al.] ... 41 Figura 11: Algumas metodologias que compõem a área de proteômica estrutural

baseadas em espectromeria de massas. ... 45 Figura 12: Representação esquemática da modificação resultante na superfície de um

complexo proteico após o experimento de ligação cruzada. Representação de superfície de um complexo proteico. O agente de ligação cruzada (representado em linhas vermelhas) é uma espécie química que reage com cadeias laterais expostas ao solvente e pode, potencialmente, grampear regiões espacialmente próximas e fornecer restrições de distâncias entre os resíduos envolvidos nessa reação. Dessa forma, funcionam como réguas moleculares... 46 Figura 13: Experimento de ligação cruzada associado à espectrometria de massas

(XLMS). (1) Reação do sistema alvo com o ALC. (2) Digestão enzimática da proteína modificada, formando peptídeos convencionais e modificados pelo ALC. (3) Análise da mistura de peptídeos por LC-MS e LC-MS/MS. (4) Processamento e análise de bioinformática para identificação das espécies de ligação cruzada. (5) Mapeamento das restrições de distância em sistemas atomísticos ou utilização das restrições para modelagem. ... 47 Figura 14: Derivados de NHS disponíveis comercialmente como ALCs com diferentes

cadeias espaçadoras. ... 48 Figura 15: Estrutura química de alguns ALCs. (A) ALCs reativos frente a grupos

ácidos; (B) ALC heterobifuncional com grupo fotoativável; (C) ALCs com grupos de afinididade e (D) ALCs com sítios de clivagem. ... 49 Figura 16: Sistemas de complexos proteícos resolvidos pelo Laboratório Dalton pela

análise com XLMS. Sistemas Tom70-Hps90, FAK-aBcristalina, e FAK-Miosina, respectivamente. ... 52 Figura 17: Representação do modelo utilizado para a determinação da distância

topológica. O “linker” é representado por uma série de esferas conectadas em suas extremidades aos átomos reativos. As esferas são sequencialmente conectadas por potenciais harmônicos e repelem os átomos da proteína em distâncias de sobreposição. ... 56 Figura 18: Opções utilizadas para rodar o protocolo ab initio relax do Rosetta. ... 61 Figura 19: Avaliação do desempenho de diferentes programas para o cálculo de

distância topológica. Diagramas de Venn para (A) 4FGF e (B) 5TLE indicando como os conjuntos de distância topológica reportados por TopoLink, Xwalk e Jwalk se relacionam. Para ambos os casos, TopoLink reporta todas as restrições também encontradas por Xwalk e Jwalk, além de um subconjunto não encontrado por esses programas. Em (C) e (D) é mostrada a correlação entre os valores de distância topológica encontrada por TopoLink em relação à Xwalk e Jwalk,

(14)

respectivamente. Na maioria dos casos, TopoLink encontra distâncias menores que os outros dois programas. ... 66 Figura 20: Informação do experimento de XLMS. A identificação de uma espécie de

ligação cruzada entre dois resíduos (linhas amarelas) implica que a distância entre os átomos reativos, d(Ax,By), é menor do que a comprimento da cadeia

espaçadora, LXL. No entanto, uma estrutura cuja os átomos da cadeia principal

estão fixos não representam todas as configurações entre os pares de resíduos que podem ser modificados pelo ALC. Como indicado pelas linhas vermelhas conectando os átomos C, configurações alternativas das cadeias laterais para a mesma cadeia principal pode potencialmente validar outras três restrições. Dessa forma, pelo menos a variabilidade devido à reorientação das cadeias laterais deve ser considerada para definir a distância máxima efetiva, Lmax, entre os resíduos

que podem ser conectados. ... 68 Figura 21: Definição estatística de Lmax. Depois de computar a distância topológica

entre os átomos reativos, o subconjunto de pares com distâncias menores do que o comprimento da cadeia espaçadora, 11,5 Å, foi selecionado. Em seguida, as distâncias topológicas entre os átomos C que tinham os correspondentes átomos reativos no subconjunto anterior foram selecionadas. A distribuição de distância topológicas revela que distâncias correspondentes a soma dos comprimentos das cadeias laterais e da cadeia espaçadora do ALC nunca são observadas (comparar com dados na Tabela 2). Nós definimos a distância máxima para o qual um par de resíduos podem ser observados conectados pelo ALC após remover cenários improváveis (1%). Por exemplo, no caso dos pares de Lisinas, Lmax(0,99)=17,8 Å (linha pontilhada vertical do primeiro gráfico),

aumentando o papel restritivo da restrição por mais de 4 Å. Perfis similares foram obtidos para outros pares reativos. ... 71 Figura 22: Definição do limite estatístico, Lmax, para espécies de zero-length. Os

painéis à direita mostram a distribuição de distância entre os átomos que estão envolvidos na ligação covalente quando da formação da espécie de ligação cruzada. A aproximação Gaussiana mostrada na curva azul tracejada define a distância LXL para cada par como 99% da área sobre a curva. Os painéis à direita

mostram as distribuições entre os C e a definição de Lmax análoga a mostrada

na Figura 21. ... 73 Figura 23: Determinação do campo de forças estatístico. (A) Distribuição de distâncias

topológicas entre C para pares de lisinas com N menor do que 11,5 Å. (B) Probabilidade que a distância topológica está abaixo de Lmax(0,99)=17,8 Å como

função da distância Euclidiana entre os C dos pares de Lisinas. Conforme a distância Euclidiana atinge o Lmax, a probabilidade de satisfazer o caminho

topológico máximo diminui. (C) A curva de energia potencial pode ser derivada de (A) assumindo que essa distribuição de probabilidade segue uma distribuição de Boltzmann. ... 75 Figura 24: Potencial estatístico para diferentes tipos de ALCs e pares de resíduos. (A)

DSS/BS3, (B) 1,6-diaminahexano, (C) zero-length. ... 75 Figura 25: Representação das restrições de distâncias obtidas a partir dos dados de

(15)

painéis, a linha vermelha indica o limite superior (UL) para o qual se define o comprimento efetivo do ALC. ... 78 Figura 26: Desempenho das funções de energia para representar os dados de XLMS

na modelagem dos domínios da Albumina e da SalBIII com o protocolo ab initio

relax do Rosetta. (painéis à esquerda) Frequência dos modelos obtidos em

função da qualidade estrutural, medida pelo TM-score. A função de energia

Lorentziana produz a mesma distribuição que a modelagem sem restrições,

nosso controle negativo, não importando o limite superior (UL) aplicado. Há um aumento significativo na qualidade dos modelos obtidos quando o limite estatístico aqui proposto é aplicado juntamente com o potencial FlatHarmonic. Em todos os casos, o potencial estatístico, XLFF, supera as representações anteriormente propostas. (Painéis à direita) A fração de modelos com TM-score maior do que 0,5 aumenta ao se selecionar modelos com melhores escores totais (energia do Rosetta + energia das restrições) no caso do potencial FlatHarmonic com o limite estatístico, Lmax(0,99), ou ao se aplicar o XLFF. Os outros casos (sem

restrições, Lorentz com ambos os limites e FlatHarmonic com limites frouxos) o efeito de seleção é negligível. ... 82 Figura 27: Representação cartoon de cada uma das 15 proteínas utilizadas como

conjunto teste adicional. As proteínas estão organizadas por classes em cada uma das colunas (principalmente alfa-hélices, principalmente folhas-beta e classe mista, respectivamente) e por tamanho da primeira para a última linha. ... 86 Figura 28: Resultados da modelagem para o conjunto de 15 alvos aleatórios de

diferentes tamanhos e classes. Resultados similares àqueles presentas na Figura 6 são observados. Proteínas que são constituídas principalmente por alfa-hélices e proteínas pequenas de diferentes classes são facilmente modeladas em um cenário em que estruturas de alta resolução para sequências similares não estão disponíveis. O uso do limite estatístico, L(0,99), é o fator determinante para definir a qualidade da modelagem nesse caso e o potencial estatístico, XLFF, fornece melhoria adicional, mas pequena. ... 88 Figura 29: Resultados da modelagem para o conjunto de 15 alvos aleatórios de

diferentes tamanhos e classes sem excluir possíveis fragmentos de sequências homólogas da biblioteca de fragmentos. Em todos os casos, a função Lorentziana segue a mesma tendência das modelagens sem restrições, independentemente dos limites utilizados para descrever o conjunto de restrições (L25 e Lstat). Por outro lado, há melhoria significante quando se utiliza a função FlatHarmonic quando se utiliza o limite estatístico. Finalmente, XLFF é a melhor escolha em todos os casos. Como esperado, resultados mais expressivos são obtidos se estruturas homólogas são permitidas na biblioteca de fragmentos (compare os resultados com a Figura 28), e as vantagens do potencial estatístico no refinamento de modelos se torna mais evidente em muitos casos. ... 90 Figura 30: Modelagem dos domínios da Albumina e da SalBIII com restrições

experimentais e XLFF. (paneis à esquerda) Como esperado, o número de modelos com TM-score maior do que 0,5 diminui quando comparado com o conjunto de restrições gerados in silico devido a limitações experimentais. Entretanto, o uso de limites estatísticos e, especialmente, do XLFF, é ainda capaz de produzir um número expressivo de modelos com o enovelamento correto.

(16)

(painéis à direita) Os modelos produzidos com o XLFF (curva verde) e o potencial

FlatHarmonic (curva azul) tiveram seus escores reavaliados com escore do

Rosetta somente, escore das restrições somente e o escore composto de ambos (nomeado como escore total). Para XLFF, na maioria dos casos, o escore composto revela-se mais adequado para selecionar modelos com o enovelamento correto. Para todos os casos, o escore do Rosetta somente produz pior seleção. Para o potencial FlatHarmonic, nenhuma diferença significativa é observada em detrimento da seleção por escore aplicado. ... 93 Figura 31: Avaliação do peso das restrições na modelagem com restrições

experimenais validadas pela estrutura cristalográfica. O peso das restrições pode aumentar a população de estruturas nativas modelagas. Na maioria dos casos, quando maior o peso das restrições melhor a qualidade média do modelos gerados. ... 96 Figura 32: Avaliação do tamanho da trajetória na modelagem com restrições

experimentais validadas pela estrutura cristalográfica. O tempo de amostragem por modelo gerado pode ser facilmente alterado. Como esperado, mais amostragem leva para molhores modelos, em média. c=2 foi utilizado nas outras modelagens desse texto. ... 97 Figura 33: Validação das restrições experimentas de XLMS em função do desvio de

Lmax. As curvas em preto representam desvios em relação a distância topológica

e as curvas em vermelho desvios em relação a distância Euclidiana calculadas a partir de Lmax. ... 99

Figura 34: Avaliação do desempenho da modelagem ao se utilizar diferentes subconjuntos de restrições experimentais. Os subconjuntos são obtidos pela validação das restrições experimentais em função do desvio de Lmax (Figura 33).

As linhas cheias e tracejadas correspondem às tendências observadas para a modelagem em função da validação em função da distância topológica e Euclidiana, respectivamente. As cores preto, vermelho e azul correspondem a fração de modelos com TM-score maior que 0,4, 0,5 e 0,6, repectivamente. .. 101 Figura 35: Perfil de validação das restrições a partir da avaliação de modelos gerados

pelo Rosetta. Para todos os casos, se observa um aumento significativo na qualidade das restrições recuperadas... 103 Figura 36: Diagramas de Venn mostrando a complementariedade entre os conjuntos

de restrições utilizados em cada uma das iterações. ... 104 Figura 37: Desempenho da modelagem com conjuntos de restrições experimentais

(17)

LISTA DE TABELAS

Tabela 1: Comparação entre o número de estruturas depositadas no PDB e o número de sequências presentes no banco de dados TrEMBL após agrupamento em três níveis de similaridade. ... 34 Tabela 2 Número de distâncias calculadas a partir das 21.000 estruturas do

CATHS40(v4.1) ... 70 Tabela 3: Distância estendida e estatística (Lmax) para os pares de resíduos

considerados. A distância efetiva máxima que contém 99% de as possíveis espécies de ligação cruzada ao se considerar as distribuições da Figura 20 é significativamente mais restritiva do que o comprimento máximo esperado. Conformações estendidas não são frequentemente observadas. ... 72 Tabela 4: Avaliação da população de modelos com enovelamento correto nas

modelagens dos domínios da Albumina e da SalBIII utilizando diferentes funções de energia disponíveis para representar os dados de restrições dos experimentos de XLMS. O uso do limite superior estatístico melhora significativamente a qualidade dos modelos obtidos com o potencial FlatHarmonic, mas nenhuma diferença é observada com o potencial Lorentziano. XLFF, a representação estatística das restrições, melhora ainda mais a qualidade dos modelos obtidos. ... 83 Tabela 5: Características das proteínas alvo deste estudo teste. 15 proteínas foram

aleatoriamente selecionadas para compor três categorias de topologias (principalmente α-hélice, principalmente folha-β e de classe mista) e cinco faixas de tamanho. ... 85 Tabela 6: Restrições dos experimentos de XLMS para modelagem da SalBIII e dos

domínios da Albumina. ... 92 Tabela 7: Avaliação da população de modelos com enovelamento correto nas

modelagens dos domínios da Albumina e da SalBIII utilizando dados de restrições experimentais de XLMS. ... 94

(18)

LISTA DE ABREVIATURAS E SIGLAS

AGC AUTOMATIC GAIN CONTROL OU GANHO CONTROLE AUTOMÁTICO

ALC AGENTE DE LIGAÇÃO CRUZADA OU CROSS-LINKER

BFS BREADTH-FIRST SEARCH OU BUSCA EM LARGURA

BS3 SUBERATO DE BIS(SULFOSUCCINIMIDILA)

CASP CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE

PREDICTION

Cryo-EM CRIO-MICROSCOPIA ELETRÔNICA

Da DALTON (1 DA = 1,661.10-24 G) DMF N,N-DIMETILFORMAMIDA DRX DIFRAÇÃO DE RAIOS-X DSG GLUTARATO DE DISUCCINIMIDA DSS SUBERATO DE DISUCCINIMIDA DTT DITIOTREITOL

EDC 1-ETIL-3-(3-DIMETILAMINOPROPIL)CARBODIIMIDA

ESI ELECTROSPRAY IONIZATION

FTICR RESSONÂNCIA CICLOTRÔNICA DE ÍONS COM TRANSFORMADA DE FOURIER

HCD HIGH COLISION ENERGY OU COLISÃO A ALTA ENERGIA

HDX HYDROGEN DEUTERIUM EXCHANGE OU TROCA DE HIDROGÊNIO-DEUTÉRIO

IAA IODOACETAMIDA

IM ION MOBILITY OU MOBILIDADE IÔNICA

IMAC IMOBILIZED METAL AFFINITY CHROMATOGRAPHY OU CROMATOGRAFIA DE

AFINIDADE COM METAL IMOBILIZADO

LC-MS CROMATOGRAFIA LÍQUIDA ACOPLADA À ESPECTROMETRIA DE MASSAS

LC-MS/MS CROMATOGRAFIA LÍQUIDA ACOPLADA À ESPECTROMETRIA DE MASSAS

SEQUENCIAL

LIT ION TRAP LINEAR OU ARMADILHA DE ÍONS

MALDI MATRIX-ASSISTED LASER DESORPTION IONIZATION

MES ÁCIDO 2-(N-MORFOLINO) ETANOSSULFÔNICO

MS ESPECTROMETRIA DE MASSAS

MSn ESPECTROMETRIA DE MASSAS SEQUENCIAL NHS N-HIDROXISUCCINIMIDA

(19)

PDB PROTEIN DATA BANK

Q-Orbitrap ANALISADOR DE MASSAS HÍBRIDO DO TIPO QUADRUPOLO-ORBITRAP

Q-TOF ANALISADOR DE MASSAS HÍBRIDO DO TIPO QUADRUPOLO-TEMPO DE VOO

RMN RESSONÂNCIA MAGNÉTICA NUCLEAR

SAXS ESPALHAMENTO DE RAIOS-X A BAIXO ÂNGULO

SIM-XL SPECTRUM IDENTIFICATION MACHINE FOR CROSS-LINKED PEPTIDES

SNCE STEPPED NORMALIZED COLLISION ENERGY OU ENERGIA DE COLIÇÃO

ESCALONADA NORMALIZADA

SPE SOLID PHASE EXTRACTION OU EXTRAÇÃO EM FASE SÓLIDA

TOF-TOF ANALISADOR DE MASSAS HÍBRIDO DO TIPO TEMPO DE VOO - TEMPO DE VOO

UPLC ULTRA PERFORMANCE LIQUID CHROMATOGRAPHY OU CROMATOGRAFIA

LÍQUIDA DE ALTA EFICIÊNCIA

XLFF CROSS-LINKING FORCE FIELD OU CAMPO DE FORÇAS ESTATÍSTICO PARA

LIGAÇÃO CRUZADA

XLMS CROSS-LINKING/MASS SPECTROMETRY OU LIGAÇÃO CRUZADA ASSOCIADA

À ESPECTROMETRIA DE MASSAS

(20)

SUMÁRIO

1 Introdução ... 22

1.1 Estrutura de proteínas ... 22

1.2 Enovelamento de proteínas ... 25

1.3 Métodos de determinação estrutural de proteínas ... 28

1.4 Predição da estrutura terciária de proteínas ... 34

1.4.1Abordagem ab initio ... 36

1.4.2 Abordagem comparativa ... 37

1.4.3 Abordagem integrativa e baseada em fragmentos ... 39

1.5 Espectrometria de Massas na análise de proteínas ... 42

1.6 Ligação cruzada associada à espectrometria de massas ... 45

1.6.1 Uso das restrições advindas dos experimentos de XLMS para modelagem da estrutura terciária de proteínas ... 53

2 Objetivos ... 55

2.1 Objetivo geral ... 55

2.2 Objetivos específicos ... 55

3 Métodos ... 56

3.1 Estratégias computacionais ... 56

3.1.1 Desenvolvimento de uma ferramenta para avaliação de distâncias topológicas ... 56

3.1.2 Avaliação dos experimentos de ligação cruzada in silico a partir do CATHS40 ... 59

3.1.3 Protocolo de modelagem ab initio relax com Rosetta ... 60

3.2 Obtenção de restrições experimentais ... 62

3.2.1 Reação de ligação cruzada com DSS ... 62

3.2.2 Reação de ligação cruzada Xplex... 62

3.2.3 Tratamento das amostras após reação ... 62

3.2.4 Análise dos produtos de ligação cruzada ... 63

3.2.5 Identificação das espécies de ligação cruzada ... 64

4 Resultados e discussão... 65

4.1 TopoLink: Desenvolvimento de uma ferramenta para avaliação de modelos estruturais utilizando dados de ligação cruzada ... 65

4.2 Modelagem das restrições advindas dos experimentos de XLMS ... 67

4.2.1 Determinação do comprimento máximo, Lmax ... 68

(21)

4.3 Estratégias anteriores para representação dos dados de XLMS ... 76

4.4 Desempenho da modelagem com dados teóricos de XLMS ... 78

4.4.1 Alvos padrão do laboratório ... 79

4.4.2 Alvos de diversos tamanhos e classes ... 84

4.5 Desempenho da modelagem com restrições experimentais ... 91

4.5.1 Modelagem com restrições experimentais validadas pela estrutra cristalográfica ... 91

4.5.2 Ajustes em parâmetros simples do Rosetta que podem impactar no resultado da modelagem ... 94

4.5.3 Impacto da modelagem com restrições nas vizinhanças da estrutura cristalográfica ... 98

4.5.4 Avaliação da modelagem como fonte de informação sobre o conjunto de restrições experimentais ... 101

5 Conclusões ... 106

6 Referências ... 108

7 Apêndice I: Tabelas Complementares ... 117

8 Apêndice II: Artigos publicados ... 139

(22)

1 INTRODUÇÃO

1.1 Estrutura de proteínas

Proteínas são biopolímeros presentes em todos os sistemas biológicos e possuem especial interesse por serem as grandes efetoras na dinâmica desses sistemas. São as biomoléculas mais versáteis e complexas nos sistemas bioquímicos, têm uma grande variedade de formas, e tamanhos que variam de poucos kDa a alguns MDa. As funções associadas a cada proteína raramente podem ser compreendidas de forma individual, pois sua interação com outras proteínas, biomoléculas, cofatores, e as modificações pós-traducionais são essenciais para manutenção e modulação dos processos biológicos1. Apesar de ser uma macromolécula linear, uma análise

cuidadosa de suas estruturas revela que estas são organizadas de maneira hierárquica2.

Proteínas são compostas de uma sequência de aminoácidos, chamada de estrutura primária, ligados covalentemente por ligações peptídicas (amidas). A natureza química dessas ligações impõe uma restrição geométrica importante devido à ressonância entre o par de elétrons do orbital p do nitrogênio com o orbital π da carbonila. Essa interação faz com que a ligação carbono-nitrogênio possua caráter parcial de dupla ligação, estando os átomos envolvidos C, O e N, que descrevem a ligação peptídica, no mesmo plano. Como indicado na Figura 1, as duas ligações simples vizinhas à ligação peptídica (C-N e C-C) podem rotacionar livremente e dão origem aos ângulos de rotação  e 1.

Embora proteínas formem estruturas complexas distribuídas tridimensionalmente, segmentos da cadeia polipeptídica se enovelam localmente em estruturas regulares como resultado da distribuição não aleatória dos ângulos  e . Esses enovelamentos locais constituem a estrutura secundária das proteínas, as quais surgem das interações por meio de ligações de hidrogênio entre grupos amida1.

A Figura 2 exemplifica a estrutura de uma alfa-hélice e de uma folha-beta dando destaque para essas interações.

1 David L Nelson et al., Lehninger Principles of Biochemistry, 7th ed. (W. H. Freeman, 2017).

2 Gordon M. Crippen, “The Tree Structural Organization of Proteins,” Journal of Molecular Biology 126, no. 3 (December 1978): 315–332, doi:10.1016/0022-2836(78)90043-8.

(23)

Figura 1: A liberdade de movimento dos átomos da cadeia principal de uma cadeia polipeptídica.

A condensação de dois aminoácidos dá origem a ligação peptídica de estrutura planar com restrição de rotação entre os átomos C-N (azul sombreado). As ligações N-C e C-C, entretanto, em virtude de seu caráter de ligação simples podem rotacionar livremente, formando ângulos de valor variável  e . Um ângulo  de 0o corresponde a conformação na qual o N-H e o C-R apontam na mesma direção, enquanto que um ângulo de 180o corresponde a conformação na qual eles apontam em direções opostas. Os valores de  correspondem, semelhantemente, à mesma análise para o ângulo entre C-R e C-O. Como demonstrado por Ramachandran3, esses ângulos não assumem uma distribuição aleatória e estão associados diretamente à formação de estruturas secundárias. [Figura extraída da referência 1]

Figura 2: Elementos de estrutura secundária em proteínas. O enovelamento de seguimentos locais

da sequência de proteínas pode dar origem a estruturas regulares como as alfas-hélices (em verde) e as folhas-beta (em azul). Esses elementos têm como principal característica a presença de ligações de hidrogênio entre as amidas da cadeia principal. Duas representações estão demonstradas para cada tipo de estrutura secundária: representação em cartoon (A) e (C) em sticks (B) e (D).

A cadeia polipeptídica como um todo tende a se enovelar em uma estrutura compacta, a estrutura terciária. A estrutura terciária constitui a forma mais estável da cadeia proteica, otimizando as forças que atuam entre os diferentes aminoácidos e

3 G. N. Ramachandran et al., “Stereochemistry of Polypeptide Chain Configurations,” Journal of

(24)

também entre a cadeia polipeptídica, o solvente e os íons. Usualmente, a estrutura terciária é também a forma biologicamente ativa da proteína e a perturbação da estrutura leva a sua parcial ou completa inativação. Por isso, a estrutura terciária é referida como estrutura nativa da proteína1.

A estrutura terciária é comum à maior parte das proteínas, mas não é necessariamente o nível final de estruturação. Algumas proteínas incluem mais de uma cadeia. Em tais casos, cada cadeia se enovela separadamente em sua estrutura terciária, e então se junta a outras para formar o complexo biologicamente ativo. Esse tipo de organização constitui a estrutura quaternária. A Figura 3 ilustra cada um dos níveis estruturais presentes em proteínas.

Figura 3: Os quatro níveis hierárquicos da estrutura de proteínas. Os diferentes níveis são

exemplificados para a estrutura da proteína hemoglobina (PDB ID 1C7D)4. O primeiro nível estrutural se refere à sequência de aminoácidos da cadeia. O segundo nível estrutural inclui segmentos de alfa-hélices e folhas-beta (não presentes nesse exemplo). O terceiro nível se refere ao arranjo tridimensional compacto resultante das diversas forças físicas atuantes no enovelamento proteico. Finalmente, a estrutura quaternária se refere ao arranjo entre cadeias polipeptídicas que resultam em uma unidade supramolecular biologicamente ativa.

4 E. A. Brucker, “Genetically Crosslinked Hemoglobin: A Structural Study.,” Acta Crystallographica.

Section D, Biological Crystallography 56, no. Pt 7 (July 2000): 812–816,

(25)

1.2 Enovelamento de proteínas

Em 1968, Cyrus Levinthal apresentou um problema que ficou conhecido como o paradoxo de Levinthal5 relacionado ao processo de enovelamento de uma

cadeia polipeptídica em sua estrutura nativa:

Assumindo que o processo de enovelamento de uma proteína envolva amostrar todas as suas possíveis conformações e que cada resíduo tenha pelo menos três estados (por exemplo, que possa explorar livremente 3 ângulos  ou ), então uma proteína de 100 resíduos deveria amostrar 3100 = 5x1047 conformações. Agora,

se assumirmos que leva 1 picosegundo para a proteína passar por cada uma dessas conformações, então o tempo para passar por todas as conformações seria de 3100x10-12 s = 5x1035 s = 1,6x1028anos. Esse período de tempo é 1018 vezes maior do

que a idade do universo e, portanto, não está de acordo com o tempo que as proteínas levam para se enovelar no mundo real, entre um milisegundo e um segundo6.

Claramente, proteínas não exploram todas as conformações possíveis para chegar na conformação biologicamente ativa. Ao contrário, elas enovelam de maneira cooperativa, em que cada passo limita as possibilidades dos caminhos seguintes7. A

cooperatividade do enovelamento proteico é descrita graficamente pela amplamente aceita teoria da paisagem energética8, que descreve o processo de enovelamento

ocorrendo dentro de um funil de energia-entropia, como ilustrado na Figura 4. Cada conformação é representada como um ponto no hiperplano, de acordo com seus valores de energia e entropia. O formato do funil chama atenção para alguns aspectos-chave do processo de enovelamento: a) envolve a diminuição tanto da entalpia quanto da entropia da proteína. O processo está completo quando a conformação de menor

5 Cyrus Levinthal, “Are There Pathways for Protein Folding?,” J. Chim. Phys. Phys. Chim. Biol. 65 (1968): 44–49.

6 Ken A. Dill et al., “The Protein Folding Problem,” Annual Review of Biophysics 37 (June 2008): 289– 316, doi:10.1146/annurev.biophys.37.092707.153558; Jan Kubelka et al., “The Protein Folding ‘Speed Limit,’” Current Opinion in Structural Biology 14, no. 1 (February 2004): 76–88, doi:10.1016/j.sbi.2004.01.013.

7 Robert F. Service, “Problem Solved* (*sort Of),” Science 321, no. 5890 (August 2008): 784–786, doi:10.1126/science.321.5890.784; George D. Rose et al., “A Backbone-Based Theory of Protein Folding,” Proceedings of the National Academy of Sciences of the United States of America 103, no. 45 (November 2006): 16623–16633, doi:10.1073/pnas.0606843103.

8 J. N. Onuchic et al., “Theory of Protein Folding: The Energy Landscape Perspective,” Annual Review

(26)

energia livre de Gibbs da proteína é alcançada. Portanto, a estrutura nativa da proteína constitui o mínimo global da paisagem; b) envolve muitos mínimos locais separados por barreiras energéticas de níveis variados. Essa propriedade se reflete na natureza rugosa do funil. Cada intermediário envolve interações favoráveis, mas não necessariamente nativas. Dessa forma, esses mínimos constituem potenciais armadilhas cinéticas para o processo de enovelamento chegar até o mínimo global. Aparentemente, a evolução favoreceu sequências de proteínas com perfis de energia para o enovelamento relativamente suaves, que permitem que elas se enovelem em um tempo fisiologicamente relevante; c) o processo de enovelamento pode seguir diferentes caminhos, o que também é refletido pelo formato enrugado do funil; e d) está de acordo com o paradigma proposto por Anfinsen de que toda a informação necessária para se determinar a estrutura terciária de uma proteína está contida em sua sequência primária9. Sabe-se, entretanto, que uma fração considerável das

proteínas requer o auxílio de chaperonas moleculares para atingir o estado enovelado10.

9 Christian B. Anfinsen, “Principles That Govern the Folding of Protein Chains,” Science 181, no. 4096 (July 1973): 223–230, doi:10.1126/science.181.4096.223.

10 F. U. Hartl, “Molecular Chaperones in Cellular Protein Folding,” Nature 381, no. 6583 (June 1996): 571–579, doi:10.1038/381571a0.

(27)

Figura 4: Esquema da paisagem energética representando o processo de enovelamento de proteínas em (A) duas dimensões e (B) três dimensões.

(28)

1.3 Métodos de determinação estrutural de proteínas

Em 1960, o bioquímico Britânico John Kendrew utilizou a técnica de difração de raios-X para determinar a estrutura da mioglobina com uma resolução de 2 Å, e se tornou a primeira pessoa a determinar a estrutura tridimensional de uma proteína11. Um tempo depois, Max Perutz, um colega de Kendrew na Universidade de

Cambridge, determinou uma estrutura similar, porém de uma proteína ainda mais complexa, hemoglobina12. Por esses feitos, os dois cientistas foram laureados com o

prêmio Nobel de Química em 1962. Desde então, as estruturas de dezenas de milhares de proteínas diferentes têm sido determinadas em alta resolução. Hoje, essas estruturas são publicamente acessíveis, depositadas em banco de dados de proteínas13, e sua investigação permite entender os princípios físicos que governam

a arquitetura e a função das proteínas.

A determinação estrutural de proteínas com resolução atômica, ou alta resolução, pode atualmente ser obtida por três técnicas, sendo elas a (já mencionada) Difração de Raios-X (DRX), a Ressonância Magnética Nuclear (RMN), e a Crio-microscopia eletrônica (Cryo-EM), cujas estruturas são depositadas no depositadas no Protein Data Bank (PDB)14. Atualmente (03-jul-2019), esse banco de dados conta

com 153.836 entradas das quais 142.643 são ou contém estruturas de proteínas. Como mostrado pela Figura 5A, há um crescimento constante no número de estruturas depositadas anualmente. Em 2018, 10.298 novas estruturas de proteínas foram depositadas. A Figura 5B mostra, ainda, que 90% das estruturas depositadas foi resolvida por DRX, 8% por RMN e 2% por Cryo-EM. Apesar do número de estruturas crescer constantemente, é interessante notar que o número de novos enovelamentos não segue a mesma tendência. Como mostrado pela Figura 6, até

11 J. C. Kendrew et al., “Structure of Myoglobin: A Three-Dimensional Fourier Synthesis at 2 Å. Resolution,” Nature 185, no. 4711 (February 1960): 422, doi:10.1038/185422a0.

12 M. F. Perutz et al., “Structure of Haemoglobin: A Three-Dimensional Fourier Synthesis at 5.5-A. Resolution, Obtained by X-Ray Analysis,” Nature 185, no. 4711 (February 1960): 416–422, doi:10.1038/185416a0.

13 Sameer Velankar et al., “PDBe: Protein Data Bank in Europe,” Nucleic Acids Research 39, no. Database issue (January 2011): D402–D410, doi:10.1093/nar/gkq985; Helen M. Berman et al., “The Protein Data Bank,” Nucleic Acids Research 28, no. 1 (January 2000): 235–242.

14 Helen M. Berman et al., “The Protein Data Bank,” Nucleic Acids Research 28, no. 1 (January 2000): 235–242.

(29)

2013 conhecia-se 1.375 diferentes enovelamentos segundo classificação do CATH15

v4.0. Em sua última versão, CATH v4.2 atualizado até 2017, 1.391 topologias diferentes eram reportadas. Isso pode indicar que existe um número limitado de enovelamentos explorados pela natureza que estão acessíveis às metodologias de determinação estrutural de alta resolução. Ainda, existe grande chance de a estrutura de uma nova proteína resolvida ter um dos 1.400 enovelamentos conhecidos. Muitos biólogos estruturais concordam com a premissa de que todo o espaço de enovelamentos possíveis possa ser representado por um conjunto de estruturas limitado16. De fato, o espaço estrutural é muito mais conservado do que o espaço das

sequências17.

15 Ian Sillitoe et al., “CATH: Comprehensive Structural and Functional Annotations for Genome Sequences,” Nucleic Acids Research 43, no. D1 (January 2015): D376–D381, doi:10.1093/nar/gku947. 16 Donald Petrey et al., “Protein Structure Prediction: Inroads to Biology,” Molecular Cell 20, no. 6 (December 2005): 811–819, doi:10.1016/j.molcel.2005.12.005.

17 C Chothia et al., “The Relation between the Divergence of Sequence and Structure in Proteins.,” The

(30)

Figura 5: Estatísticas das estruturas de proteínas do Protein Data Bank. (A) Crescimento anual no

número de estruturas depositadas. (B) Porcentagem de estruturas de proteínas resolvidas por Difração de Raios-X (DRX), Ressonância Magnética Nuclear (RMN) e Crio Microscopia Eletrônica (cryo-EM).

(31)

Figura 6: Estatísticas do número de novos enovelamentos ao longo dos anos como classificados pelo CATH até 2013. Entre 2013 e 2017 somente 16 novos enovelamentos foram

adicionados a essa estatística.

A DRX é considerada ainda hoje a forma mais exata de determinar a estrutura tridimensional de macromoléculas sendo, como observado anteriormente, responsável pela maioria dos depósitos de estruturas de alta resolução. Entretanto, muitas dificuldades estão associadas ao método18: 1) dificuldade no preparo de

amostras, em especial na obtenção de monocristais, que geralmente requerem condições específicas de temperatura, pH, salinidade, entre outros, e que podem levar meses para crescer; a necessidade de superexpressão da proteína geralmente significa trabalhar com organismos muito mais simples do que aquele que produz a proteína naturalmente. Como consequência, muitos passos de processamento pós-traducionais podem não estar presentes, resultando em mau enovelamento, especialmente quando a proteína não é muito solúvel; embora qualquer molécula teoricamente devesse ser passível de cristalização, o processo de cristalização de proteínas muito grandes é muito difícil. Esse problema também é muito pronunciado em proteínas de membrana, as quais são envolvidas naturalmente por lipídeos que são flexíveis e, portanto, não tendem a cristalizar; outra característica que pode fazer

18 Alexander Wlodawer et al., “Protein Crystallography for Aspiring Crystallographers or How to Avoid Pitfalls and Traps in Macromolecular Structure Determination,” The FEBS Journal 280, no. 22 (November 2013): 5705–5736, doi:10.1111/febs.12495.

(32)

proteínas não passíveis de cristalização é a flexibilidade intrínseca, como a presença de alças entre domínios. Como resultado desses fatores, a taxa de sucesso na determinação estrutural por DRX é somente ~5%19. 2) Um potencial problema com

estruturas cristalográficas é que elas são determinadas em condições não naturais. A proteína é cristalizada, o que significa que ela não está mais em solução, seu ambiente natural. Isso é um potencial problema, uma vez que as proteínas evoluíram para funcionar em solução. O ambiente cristalino não natural pode distorcer a estrutura em dois sentidos. O primeiro está associado a forças de compactação atuando no cristal, o que pode deslocar a conformação da proteína para um estado não ativo. De fato, embora estruturas de mesmas proteínas determinadas tanto DRX e RMN revelarem-se similares em geral, parece haver características distintas entre elas, por exemplo, o número de contatos por resíduo e o número de ligações de hidrogênio feitos pela cadeia principal20. O segundo está associado à perda do caráter dinâmico que

caracteriza a proteína em solução e que é importante para descrever completamente a função associada21.

No caso da RMN, a técnica está limitada ao tamanho da proteína, sendo o limite prático atual de 40 kDa, além da necessidade de proteínas que estejam enriquecidas isotopicamente e que sejam estáveis para a aquisição dos espectros multidimensionais, que podem levar dias ou até semanas22. A grande vantagem aqui

é que a proteína é determinada próxima ao seu ambiente nativo, em solução.

Avanços tecnológicos recentes fizeram com que Cryo-EM despontasse como uma nova técnica de determinação estrutural de proteínas em alta resolução,

19 “The PSI:Biology Goals and Milestone Committee,” accessed July 14, 2019, http://targetdb.pdb.org/metrics/.

20Sergiy O. Garbuzynskiy et al., “Comparison of X-Ray and NMR Structures: Is There a Systematic Difference in Residue Contacts between X-Ray- and NMR-Resolved Protein Structures?,” Proteins 60, no. 1 (July 2005): 139–147, doi:10.1002/prot.20491; Michael Andrec et al., “A Large Data Set Comparison of Protein Structures Determined by Crystallography and NMR: Statistical Test for Structural Differences and the Effect of Crystal Packing,” Proteins 69, no. 3 (November 2007): 449–465, doi:10.1002/prot.21507.

21 Kaare Teilum et al., “Functional Aspects of Protein Flexibility,” Cellular and Molecular Life Sciences:

CMLS 66, no. 14 (July 2009): 2231–2247, doi:10.1007/s00018-009-0014-6.

22Ann H. Kwan et al., “Macromolecular NMR Spectroscopy for the Non-Spectroscopist,” The FEBS

(33)

permitindo a observação de moléculas de proteínas diretamente23. Em contraste com

a DRX, que se torna mais simples quanto menor a estrutura, Cryo-EM se beneficia de estruturas maiores. Teoricamente, não é possível aplicar Cryo-EM a qualquer sistema menor do que 60 kDa e obter estruturas de alta resolução, mas a técnica é geralmente aplicada a proteínas maiores que 200 kDa.

Apesar do sucesso das técnicas de alta resolução, devido às limitações apontadas anteriormente e aos avanços tecnológicos (e barateamento) associados às técnicas de sequenciamento, o número de proteínas conhecidas (ou preditas) ao nível de sequência é muito maior do que o número de estruturas de proteínas conhecidas em alta resolução. A Figura 7 mostra as estatísticas para o banco de sequências de proteínas TrEMBL24, que possui impressionantes 158.532.418 sequências. Isso

corresponde a 1.110 vezes mais sequências do que estruturas depositadas no PDB. Porém, há um grau de redundância apreciável em ambos os casos. A Tabela 1 oferece comparação dos números presentes no TrEMBL e no PDB agrupando-se as entradas em três níveis de similaridade de sequência: 100%, 90% e 50%, de acordo com os valores acessíveis através do banco de dados UniRef25 e no filtro avançado

disponibilizado no site do PDB. Nesse caso, a discrepância se torna menor, mas não menos importante. Há 948 vezes mais sequências de proteínas do que estruturas resolvidas, isso se considerarmos que mais de 50% de similaridade de sequência seja suficiente para inferir informação estrutural para todo um grupo de sequências - o que é geralmente verdade para esse nível de similaridade26.

23 Kazuyoshi Murata et al., “Cryo-Electron Microscopy for Structural Analysis of Dynamic Biological Macromolecules,” Biochimica et Biophysica Acta (BBA) - General Subjects, Biophysical Exploration of Dynamical Ordering of Biomolecular Systems, 1862, no. 2 (February 2018): 324–334, doi:10.1016/j.bbagen.2017.07.020.

24 Amos Bairoch et al., “The SWISS-PROT Protein Sequence Database and Its Supplement TrEMBL in 2000,” Nucleic Acids Research 28, no. 1 (January 2000): 45–48.

25 Baris E. Suzek et al., “UniRef Clusters: A Comprehensive and Scalable Alternative for Improving Sequence Similarity Searches,” Bioinformatics 31, no. 6 (March 2015): 926–932, doi:10.1093/bioinformatics/btu739.

26 Andras Fiser, “Template-Based Protein Structure Modeling,” Methods in Molecular Biology (Clifton,

(34)

Figura 7: Crescimento do número de sequências de proteínas depositadas nos bancos de dados SwissProt e TrEMBL no tempo. [gráfico extraído do banco de dados público]

Tabela 1: Comparação entre o número de estruturas depositadas no PDB e o número de sequências presentes no banco de dados TrEMBL após agrupamento em três níveis de similaridade. Similaridade de sequência (%) Número de estruturas no PDB Número de sequências UniRef TrEMBL numSeq/numEstr 100 65.149 131.534.260 2.019 90 43.055 78.649.231 1.827 50 33.510 31.773.045 948

1.4 Predição da estrutura terciária de proteínas

A modelagem da estrutura de proteínas é uma ferramenta essencial e atrativa no sentido de preencher a lacuna que existe entre o número de estruturas determinadas experimentalmente e o número de proteínas previstas pelas análises genômicas sendo esse um dos objetivos mais desejáveis na área de biologia computacional.

As estratégias de predição de estruturas terciárias são avaliadas bianualmente pelo CASP (Critical Assessment of Techniques for Protein Structure

(35)

Prediction)27. Nessa competição, um conjunto de proteínas que são resolvidas por

técnicas de alta resolução não são disponibilizadas em nenhum banco de dados de estruturas. De acordo com a dificuldade em achar uma estrutura já resolvida com base na sequência do alvo, essas proteínas são divididas em diferentes categorias. As sequências das proteínas alvo são disponibilizadas para que os diversos grupos de modelagem possam obter modelos estruturais. Os resultados da predição são então submetidos e avaliados quanto a sua exatidão em relação à estrutura experimental de alta resolução. Como exemplo, a Figura 8 extraída do site do CASP, mostra a evolução na modelagem baseada em templates entre os CASP1 (1994) e o CAPS12 (2016), indicando a evolução dos grupos de modelagem nesse campo.

Os vários métodos computacionais disponíveis para predição de estrutura de proteínas podem ser agrupados em duas abordagens principais: 1) métodos ab

initio ou de novo, em que a estrutura é predita utilizando primeiros princípios físicos e

2) métodos comparativos, nos quais a comparação entre a sequência alvo e sequências de proteínas resolvidas permitem o reconhecimento de estruturas iniciais para modelagem.

.

Figura 8: Evolução da qualidade dos modelos de predição da estrutura terciária de proteínas submetidos nas competições do CASP ao longo dos anos.

27 John Moult et al., “Critical Assessment of Methods of Protein Structure Prediction (CASP)-Round XII,”

(36)

1.4.1 Abordagem ab initio

A maneira mais intuitiva de predizer o enovelamento nativo de uma proteína é provavelmente seguir os princípios da própria natureza, isso é, caracterizar as forças que direcionam a proteína a se enovelar e usá-las para reproduzir o processo de enovelamento computacionalmente para uma estrutura desconhecida28. Uma vez que

há muitas conformações disponíveis para uma dada cadeia polipeptídica, a predição estaria vinculada a assumir a premissa termodinâmica de que o estado nativo corresponde ao mínimo de energia para a proteína, isso é, a organização tridimensional mais estável dos átomos que a compõe29.

Predições puramente guiadas por critérios associados a energia do sistema usam informações sobre os tipos de átomos presentes no sistema, as suas posições relativas no espaço e as suas interações ligantes e não ligantes com outros átomos. Essa informação é utilizada para calcular a energia do sistema e as forças agindo sobre cada átomo. Embora diferentes métodos possam ser incluídos na abordagem

ab initio, todos compartilham duas habilidades básicas: 1) calcular a energia do

sistema para uma dada configuração e 2) amostrar muitas configurações para encontrar a de mínima energia.

A caracterização fidedigna de todas as forças físicas agindo entre os diferentes átomos seria obtida somente a partir de cálculos de mecânica quântica. Infelizmente, esses cálculos são computacionalmente muito caros e o poder computacional disponível atualmente os torna inviáveis para caracterização macromolecular. Por isso, a descrição desses sistemas é realizada através de aproximações que utilizam expressões da mecânica clássica Newtoniana e descrevem os átomos do sistema como pontos e as ligações covalentes como molas30. O conjunto de equações matemáticas utilizadas para descrever o sistema é

chamado de campo de forças. Por exemplo, a energia potencial total de um sistema pode ser representada como:

28 K. A. Dill, “Dominant Forces in Protein Folding,” Biochemistry 29, no. 31 (August 1990): 7133–7155, doi:10.1021/bi00483a001.

29 J. N. Onuchic et al., “Theory of Protein Folding: The Energy Landscape Perspective,” Annual Review

of Physical Chemistry 48 (1997): 545–600, doi:10.1146/annurev.physchem.48.1.545.

30 Leandro Martínez et al., Fundamentos de Simulação Por Dinâmica Molecular (Livraria da Física, 2006).

(37)

𝑈𝑡𝑜𝑡𝑎𝑙 = 𝑈𝑙𝑖𝑔𝑎𝑑𝑜 + 𝑈𝑛ã𝑜−𝑙𝑖𝑔𝑎𝑑𝑜 (1)

Na qual Utotal é a energia potencial total, Uligado é a energia potencial resultando das

ligações covalentes, e Unão-ligado se refere às interações não covalentes, incluindo, por

exemplo, àquelas resultando das interações eletrostáticas e das interações de van der Waals, cada uma dessas parcelas com sua forma funcional específica.

Assumindo que o campo de forças é exato, seu uso nos permite determinar a estabilidade relativa das diversas conformações possíveis para uma proteína. Em princípio, encontrar o estado nativo de uma proteína requer explorar todo o espaço configuracional eficientemente. Essa tarefa é, entretanto, virtualmente impossível. Dessa forma, diferentes métodos buscam encontrar as configurações de menor energia sem buscar por cada configuração possível. Exemplos dessas abordagens incluem métodos de otimização local (minimização de energia) e dinâmica molecular31.

Os métodos ab initio não são capazes de predizer a estrutura da maioria das proteínas com base somente na sequência32. Entretanto, eles são muito eficientes

quando a estrutura inicial da predição está próxima a estrutura nativa, ou seja, como método de refinamento estrutural. Além disso, dinâmica molecular fornece informação preciosa quanto à dinâmica das proteínas que, apesar de não cobrir todo o espectro configuracional, pode ser muito relevante para entender o comportamento de proteínas em solução33.

1.4.2 Abordagem comparativa

A bioinformática emergiu no início dos anos 90 e teve como um ramo importante de pesquisa o intuito de descrever as características de novas proteínas com base nas propriedades de suas sequências. No contexto estrutural, surgiu a ideia

31 Michael Feig et al., “Protein Structure Refinement via Molecular Dynamics Simulations,” Biophysical

Journal 114, no. 3 (February 2018): 575a, doi:10.1016/j.bpj.2017.11.3143.

32 Márcio Dorn et al., “Three-Dimensional Protein Structure Prediction: Methods and Computational Strategies,” Computational Biology and Chemistry 53PB (2014): 251–276, doi:10.1016/j.compbiolchem.2014.10.001.

33 Kaare Teilum et al., “Functional Aspects of Protein Flexibility,” Cellular and Molecular Life Sciences:

(38)

de que podemos aprender sobre a estrutura tridimensional de uma nova proteína se formos capazes de encontrar uma outra proteína com propriedades similares e estrutura tridimensional conhecida (um modelo inicial)34. Métodos de bioinformática

para predição estrutural com essa premissa são nomeados modelagem comparativa, estatística ou guiada por dados. Alguns desses métodos dependem somente da similaridade de sequência entre um alvo e uma estrutura conhecida (homologia de sequência), enquanto outros dependem em similaridades de certas tendências que são determinadas pela sequência, tais como a formação de estruturas secundárias específicas. Essas tendências refletem princípios fisico-químicos e restrições evolutivas que são extraídas por meio da análise estatística de grandes bancos de dados. Por esse motivo, o campo tem se beneficiado enormemente do aumento do número de sequências genômicas nos últimos anos.

De maneira geral, a modelagem por homologia requer que o alvo e as proteínas molde compartilhem pelo menos 30% de identidade35. Entretanto, há

estudos que sugerem que a predição confiável requer pelo menos 50% de identidade36. Nesses casos, os programas de modelagem geram resultados

similarmente bons37, com RMSD entre os átomos da cadeia principal entre 1 e 2 Å. A

maioria dos problemas da modelagem por homologia tendem a aparecer, como esperado, em regiões não conservadas de baixa similaridade.

Quando a sequência alvo não tem uma sequência homóloga de estrutura conhecida, a modelagem por homologia não pode ser utilizada para predição estrutural. Entretanto, a estrutura de proteínas é mais conservada do que sequências, como evidenciado pelas diferenças entre o número de sequências e o número de enovelamentos depositados. Dessa forma, proteínas de sequências distintas podem formar estruturas similares devido a certas propriedades que estão codificadas em sua sequência. Se essas propriedades pudessem ser estatisticamente identificadas,

34 A. Sali et al., “Comparative Protein Modelling by Satisfaction of Spatial Restraints,” Journal of

Molecular Biology 234, no. 3 (December 1993): 779–815, doi:10.1006/jmbi.1993.1626.

35D. Baker et al., “Protein Structure Prediction and Structural Genomics,” Science (New York, N.Y.) 294, no. 5540 (October 2001): 93–96, doi:10.1126/science.1065659.

36 Michael A. Dolan et al., “Comparison of Common Homology Modeling Algorithms: Application of User-Defined Alignments,” Methods in Molecular Biology (Clifton, N.J.) 857 (2012): 399–414, doi:10.1007/978-1-61779-588-6_18.

Referências

Documentos relacionados

As sementes tem dormência imposta pelo tegumento e para a superação é necessário submetê-las à embebição em água (24 a 48 horas), escarificação mecânica ou

Changes in the gut microbiota appears to be a key element in the pathogenesis of hepatic and gastrointestinal disorders, including non-alcoholic fatty liver disease, alcoholic

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para

13 Além dos monômeros resinosos e dos fotoiniciadores, as partículas de carga também são fundamentais às propriedades mecânicas dos cimentos resinosos, pois

Como objetivos específicos pretendeu-se iden- tificar os taxa existentes nesta gruta, determinar a riqueza de es- pécies de sua comunidade; verificar a influência de fatores

Depois de considerar a confidência, conteúdo, distribuição, e assuntos de oportunidade associadas com a distribuição de um relatório, um controlador pode, então,

Este trabalho se justifica pelo fato de possíveis aportes de mercúrio oriundos desses materiais particulados utilizados no tratamento de água, resultando no lodo