Projeto de Iniciação Científica
Projeto de Iniciação Científica
O Problema do Empacotamento de Esferas Aplicado
ao Estudo de Proteínas
Orientadores: Marcelo Matos Santoro Laboratório de Enzimologia e FísicoQuímica de Proteínas Departamento de BioquímicaImunologia Instituto de Ciências Biológicas – UFMG – Belo Horizonte MG Wagner Meira Junior Departamento de Ciência da Computação DCC Instituto de Ciências Exatas – UFMG – Belo Horizonte MG CoOrientador: Carlos Henrique da Silveira Programa de Doutoramento em Bioinformática UFMG Belo Horizonte 20071 Contexto
As proteínas1 são uma das mais importantes moléculas dos seres vivos. Elas estão
envolvidas em uma ampla gama de processos bioquímicos: nos componentes estruturais, nas reações enzimáticas; na contração muscular, movimento ciliar, flagelar, deformação e divisão celular; nas respostas imunológicas; na autoreconstituição e reparação de tecidos; na regulação hormonal; no transporte de substâncias vitais no sangue e transporte celular intermembrana; no impulso nervoso; na reserva e armazenagem de nutrientes. Toda essa espantosa diversidade de funções bioquímicas é feita pela combinação de 20 tipos de unidades monoméricas, chamados aminoácidos [2]. No processo de polimerização, os aminoácidos se ligam covalentemente de forma linear podendo formar extensas cadeias peptídicas, (estrutura primária).
Os primeiros estudos cristalográficos apontavam para uma relação biunívoca entre função e estrutura em proteínas. A própria capacidade das proteínas formarem cristais indicava a existência de uma conformação única e ordenada [2]. Na década 1930, Linus Pauling e Robert Corey previram2, com base em dados cristalográficos, a existência de refinados padrões
conformacionais ou estruturas secundárias, como as alfas hélices, voltas e folhas betas [5].
O importante papel da entropia na determinação estrutural vem com Walter Kauzmann, na década de 1950 [4]. Em proteínas globulares estas estruturas tendem a dobrarse sobre si mesmas (enovelarse), escondendo resíduos hidrofóbicos no interior da cadeia, formando intricados arranjos tridimensionais ou uma estrutura terciária. Será Anfinsen, em meados da década de 1960, quem formulará uma notável e abrangente hipótese termodinâmica do enovelamento ao postular que toda proteína globular de baixo peso busca um estado de menor energia livre, e que toda informação que ela necessita nesse processo está codificada na seqüência de seus resíduos [6]. Essa hipótese, no entanto, como bem vaticinou Levinthal [7] criaria um sério problema de otimização para a cinética do enovelamento, já que uma proteína não poderia encontrar um estado de baixa energia livre por força bruta dado o seu imenso espaço conformacional. Logo, na seqüência primária deveriam estar encriptadas também as rotas e etapas que a conduziriam à sua estrutura nativa e funcional. Como faz uma proteína globular para enovelarse em tempo hábil em sua estrutura terciária valendose apenas da informação contida em sua estrutura primária é o que ficou conhecido como Protein Folding
Problem (PFP) [8].
Alguns autores [9,10] acreditam que a solução ao PFP passe pela existência de um código de empacotamento. No processo de enovelamento, haveria logo no início um rápido colapso da proteína, através de uma significativa diminuição do volume da cadeia promovida pela interiorização de seus resíduos hidrofóbicos. Isso restringiria o espaço de busca, solucionando o problema levantado por Levinthal, e permitiria à cadeia estabilizarse através interações internas, antes direcionadas ao solvente. Ainda que esses autores não concordem em detalhes como seja o 1 A palavra proteína, como também “próton”, vem do étimo “protêios”, radical grego que significa primeiro ou o mais importante, também usado como prefixo indicando antecedência, como em “protótipo” e “protozoário” [1]. 2 Previsão confirmada 30 anos depois, pelas primeiras proteínas com estrutura 3D resolvidas [5]
processo exatamente, é quase um consenso que o mote principal por trás desse colapso é de caráter entrópico.
Esta seria uma visão possível para descrever esse processo. Uma proteína desnaturada tem alta entropia, poucas interações internas e muitas com o solvente, através do aprisionamento de uma certa quantidade de moléculas de água em contato (a camada de solvatação) com sua superfície estirada. Já a cadeia em colapso vai perdendo graus de liberdade, mas ao fazer assim, transfere motilidade à essas moléculas de água que estavam estruturadas ao redor da superfície, agora em contração. Essas águas ganham liberdade entrópica para compor diferentes arranjos com outras águas livres e mais distantes. Quanto mais bem empacotada a cadeia, mais contraída a proteína e maior a otimização do volume ocupado por seus átomos. E quanto menor esse volume, menor a quantidade de água de estruturada no seu contorno. No cômputo final, a entropia do sistema como um todo cresce, em fiel acordo à segunda lei da termodinâmica, com o aumento da entropia do solvente compensando a perda de entropia da cadeia. Já do ponto de vista das interações, a cadeia teria apenas trocado contatos externos com o solvente por contatos internos entre seus resíduos enterrados. Logo, o fator preponderante seria entrópico. É por isso que o estudo de como os átomos estão ordenados na cadeia pode levar a insights interessantes de como o enovelamento ocorre. Uma das formas de abordar essa questão é através da análise do empacotamento de esferas em três dimensões [14], sob diferentes organizações estruturais, como ocorre em caixas de laranjas bem acomodadas, a que chamaremos doravante didaticamente de laranjinas (o conjunto de esferas) e seus larangênios (as esferas).
2 Objetivos
OBJETIVO PRINCIPAL:• Simular e analisar estatisticamente e graficamente diversas topologias de laranjinas, sob diferentes formas de empacotamento, tendo como alvo de comparação proteínas reais.
OBJETIVOS SECUNDÁRIOS:
• Desenvolver algoritmos para geração de formas variadas de laranjinas, com diferentes ordens de enumeração e de empacotamentos.
• Através de rearranjos sistemáticos na forma como os larangênios são empacotados e enumerados, ir aproximandose cada vez mais do comportamento estatístico e topológico de proteínas reais. • Desenvolver metodologias gráficas para a análise comparativa dos padrões entre laranjinas e proteínas reais, através de conceitos já explorados pelo nosso grupo de pesquisa, como mapas de contatos atômicos de alta resolução e grafos, ambos visualizados em 2D e 3D.
3 Descrição
Vejam as figuras abaixo:Elas ilustram uma das simulações que é possível de ser feita com laranjinas, num processo que chamamos de termalização. A partir de uma laranjina de topologia cúbica simples, vaise introduzindo erros aleatórios crescentes em suas coordenadas, até que ela se deforme numa estrutura que pouco lembra a caixa original, e que num primeiro olhar, guarda semelhança com um aglomerado de moléculas. São processos como esse, de aproximação do conjunto de esferas a uma proteína real, que gostaríamos de aprimorar.
Também a análise estatística e gráfica das distâncias entre as esferas tem revelado padrões curiosos, como o mapa de contatos (ver figura abaixo) de laranjinas cúbicas e esféricas comparadas ao mapa atômico de proteínas. O mapa representa uma visão global do perfil das distâncias euclidianas das esferas (átomos, larangênios), medidas todas contra todas. A paleta vai das distâncias curtas (azuis) às mais longas (vermelhas). A figura mais à esquerda mostra o mapa de uma laranjina cúbica, a do centro de uma laranjina esférica, e a da direita de uma proteína real, a mioglobina de baleia.
Para esse projeto de iniciação científica, gostaríamos de aprofundar nossa análise em modelos mais sofisticados de laranjinas, envolvendo:
• Preenchimento do contorno de uma proteína real com larangênios térmicos.
• Produzir laranjinas por processos random walking em volumes e contornos pré determinados. • Produzir laranjinas com larangênios randomicamente distribuídos num dado volume • Produzir outros tipos de laranjinas esferoidais, como oblatas e prolatas, sob diferentes tipos de empacotamento • Análise e visualização dos padrões estatísticos por mapa de contatos e grafos (como na figura abaixo, mostrando os contatos eletrostáticos numa mioglobina de baleia e uma neuroglobina de rato).
4 Plano de Atividades
1. Implementação em linguagem C de diferentes laranjinas, gerando saída em formato PDB, para que seja possível sua manipulação em qualquer programa de visualização e modelagem molecular. 2. Análise estatística das distâncias entre larangênios usando linguagem R. Desenvolvimento de rotinas em R para a produção dos mapas de contatos atômicos de alta resolução, 2D e 3D. 3. Codificação em C da geração de diversos grafos, gerando saída também em formato PDB. 4. Desenvolvimento de um site para a visualização remota dos experimentos feitos. 5. Publicação dos Resultados.5 Cronograma
Etapa Duração Implementação em C de diferentes laranjinas 2 meses Análise estatística das distâncias 2 meses Produção e análise grafos 2D e 3D 2 meses Desenvolvimento de um site interativo 3 meses Publicação dos Resultados 3 meses6 Resultados Esperados
Do ponto de vista da pesquisa, esperase que a modelagem do empacotamento de esferas leve a um maior entendimento de como os átomos de uma proteína se ordenam e se agrupam no espaço. Se houver um padrão, talvez seja possível contribuir para questões tão desafiadoras como as que envolvem a baixa homologia de seqüências entre proteínas de uma mesma família estrutural, como nas globinas. As globinas são encontradas em uma enorme variedade de seres vivos, de bactérias, plantas a invertebrados e vertebrados [11]. Existem catalogadas no PDB (Protein Data Bank) mais de 450 globinas com estruturas 3D conhecidas [12]. A análise comparativa estrutural revela que todas apresentam um mesmo motivo conformacional, compostas por cerca de 8 hélices enoveladas num padrão razoavelmente bem definido [13]. Mas dados comparativos de seqüências mostram que 82% dos resíduos de 60 globinas de vertebrados estudadas são variáveis e boa parte dos 18% restantes estão ali cumprindo uma função mais farmacofórica do que estrutural [18]. Apesar de tamanha variação em sua constituição primária, como podem todas essas proteínas ainda manter o mesmo motivo estrutural terciário de globina? Alguma coisa certamente está invariando, mas o quê? Acreditamos que pela nossa técnica será possível demonstrar o grau de envolvimento do empacotamento na invariância estrutural de famílias de proteínas seqüencialmente divergentes.Do ponto de vista da formação do aluno, esperase que ele se tenha uma formação mais transversal e transdisciplinar. Que ele vivencie na prática o método científico, o encanto da descoberta, e desenvolva as competências necessárias para seguir uma carreira acadêmica em bioinformática.