• Nenhum resultado encontrado

4.4 Desempenho da modelagem com dados teóricos de XLMS

4.4.2 Alvos de diversos tamanhos e classes

Proteínas são encontradas em uma variedade de topologias e tamanhos. Para comparar o desempenho da estratégia aqui apresentada com as estratégias propostas anteriormente é necessário aplicá-la a um conjunto adicional de alvos. É importante destacar que os principais resultados mostrados correspondem à predição cega gerada a partir de uma biblioteca de fragmentos selecionada após eliminar possíveis estruturas com sequências homólogas aos alvos em questão do banco de dados de fragmentos. Nesta sessão, para comparação, nós também modelamos os alvos com fragmentos sem aplicar a opção de exclusão de sequências homólogas do Robetta.

Avaliamos todas as entradas do banco de dados do CATHS40 de acordo com o conteúdo de sua estrutura secundária com o programa DSSP97 dentro da

plataforma do Rosetta. Ao todo, 15 alvos foram aleatoriamente selecionados (Tabela 5 e Figura 27) desse banco de dados, divididos em 3 categorias principais: principalmente alfa (conteúdo de α-hélices maior do que 50%), principalmente beta (conteúdo de folhas-β maior que 50%) e alfa-beta (conteúdo de α-hélices e folhas-β maior do que 30% cada). Ainda, para cada categoria, cinco alvos foram selecionados, um representativo de cada faixa de tamanho de sequência: 70-110, 111-150, 151-180, 181-210, 211-250.

Tabela 5: Características das proteínas alvo deste estudo teste. 15 proteínas foram aleatoriamente selecionadas para compor três categorias de topologias (principalmente α- hélice, principalmente folha-β e de classe mista) e cinco faixas de tamanho.

ID númeroRes % α-hélice % folhas-β % loop númeroXL númeroXL/númeroRes principalmente α-hélice 3tjtA01 71 0,66 0,00 0,34 27 0,38 1jt6A02 137 0,74 0,00 0,26 77 0,56 2csxA03 163 0,61 0,02 0,37 122 0,75 1f16A00 192 0,64 0,00 0,36 62 0,32 1h2sA00 225 0,77 0,02 0,21 25 0,11 principalmente folhas-β 1kjzA03 92 0,00 0,63 0,37 34 0,37 2f1eA00 116 0,00 0,66 0,34 19 0,16 2a50B00 167 0,00 0,54 0,46 62 0,37 3eb7A03 197 0,08 0,51 0,41 73 0,37 1j1tA00 228 0,08 0,52 0,40 102 0,45 classe mista 2rs7A01 74 0,41 0,32 0,27 24 0,32 1dhnA00 121 0,32 0,33 0,35 45 0,37 2jlmA00 177 0,31 0,33 0,36 61 0,34 1iruH00 202 0,30 0,33 0,37 43 0,21 1q1gA00 243 0,32 0,30 0,38 100 0,41

97 Wolfgang Kabsch et al., “Dictionary of Protein Secondary Structure: Pattern Recognition of Hydrogen- Bonded and Geometrical Features,” Biopolymers 22, no. 12 (December 1983): 2577–2637, doi:10.1002/bip.360221211.

Figura 27: Representação cartoon de cada uma das 15 proteínas utilizadas como conjunto teste adicional. As proteínas estão organizadas por classes em cada uma das colunas (principalmente alfa-

hélices, principalmente folhas-beta e classe mista, respectivamente) e por tamanho da primeira para a última linha.

Modelamos cada um desses 15 alvos analogamente ao que foi apresentado para SalBIII e Albuminas: i) sem restrições; ii) utilizando as funções

FlatHarmonic e Lorentz como proposto recentemente na literatura (UL = 25 Å entre os

átomos C) a qual inclui a explicitamente o comprimento das cadeias mais longas (de lisina) mais a variabilidade conformacional implícita; iii) as funções anteriores mas utilizando o limite estatístico (UL = Lmax(0,99)); e iv) o campo de forças estatístico,

XLFF.

A Figura 28 mostra a distribuição de frequência de modelos em função do seu TM-score em relação a estrutura cristalográfica (Figura 27). A escolha da função de energia para representar as restrições revela a mesma tendência observada para os domínios da SalBIII e da Albumina: i) para todos os alvos, a função Lorentz resulta em uma população de modelos com o mesmo perfil que a modelagem sem restrições, independentemente do limite superior utilizado; ii) a função FlatHarmonic com UL=25 Å gera um resultado um pouco melhor para alguns casos (por exemplo, 3eb7A03 e 1q1gA00), mas na maioria dos casos o resultado é similar à modelagem sem restrições; iii) o uso do limite estatístico com a função FlatHarmonic ou o uso do potencial estatístico, XLFF, resulta em uma melhoria considerável para a maioria dos alvos, com o XLFF desempenhando um pouco melhor que a função FlatHarmonic.

Importantes tendências surgem dessa análise com diferentes classes e diferentes tamanhos de sequência para esse conjunto de alvos: i) para alvos de tamanho similar, alvos principalmente compostos por alfa-hélices possuem melhor distribuições de TM-score comparados com alvos principalmente compostos de folhas-beta ou de classe mista; e ii) como esperado, alvos menores tendem a ter melhor distribuição de TM-score do que os alvos mais longos de mesma classe. Adicionalmente, alvos principalmente compostos de folhas-beta e de classe mista maiores do que 180 resíduos não possuíram candidatos com TM-score maior do que 0,5, o que reforça que as restrições derivadas do experimento de ligação cruzada (especialmente em um cenário experimental) podem não prover informação suficiente para modelar alvos que não possuem estrutura com sequência homóloga previamente resolvida. Da perspectiva desse trabalho, aumentar a amostragem ou o peso das restrições pode aumentar a população dos modelos com TM-scores maiores como discutido na próxima sessão.

Figura 28: Resultados da modelagem para o conjunto de 15 alvos aleatórios de diferentes tamanhos e classes. Resultados similares àqueles presentas na Figura 6 são observados. Proteínas

facilmente modeladas em um cenário em que estruturas de alta resolução para sequências similares não estão disponíveis. O uso do limite estatístico, L(0,99), é o fator determinante para definir a qualidade da modelagem nesse caso e o potencial estatístico, XLFF, fornece melhoria adicional, mas pequena.

Também apresentamos os resultados da modelagem desses alvos com o conjunto de fragmentos de 3 e 9 resíduos potencialmente incluindo estruturas com sequências homólogas. Este é um cenário comum, uma vez que novos enovelamentos são raros. Como esperado, melhores resultados são obtidos quando comparadas às modelagem excluindo fragmentos de sequências homólogas. Por exemplo, para alvo 2a50B00 nenhum modelo com TM-score maior do que 0,5 é obtido no caso anterior, enquanto que o novo conjunto de fragmentos e o XLFF amostram modelos com TM-scores maiores do que 0,8. Para dois alvos, 3eb7A03 e 1j1tA00, a modelagem falha em obter modelos com TM-scores maiores que 0,5 em ambos os casos.

Os dados quantitativos referentes as Figuras 28 e 29 estão tabelados para consulta como Apêndice I desta tese, nas tabelas S1 e S2, respectivamente.

Figura 29: Resultados da modelagem para o conjunto de 15 alvos aleatórios de diferentes tamanhos e classes sem excluir possíveis fragmentos de sequências homólogas da biblioteca de fragmentos. Em todos os casos, a função Lorentziana segue a mesma tendência das modelagens

sem restrições, independentemente dos limites utilizados para descrever o conjunto de restrições (L25 e Lstat). Por outro lado, há melhoria significante quando se utiliza a função FlatHarmonic quando se utiliza o limite estatístico. Finalmente, XLFF é a melhor escolha em todos os casos. Como esperado,

resultados mais expressivos são obtidos se estruturas homólogas são permitidas na biblioteca de fragmentos (compare os resultados com a Figura 28), e as vantagens do potencial estatístico no refinamento de modelos se torna mais evidente em muitos casos.