• Nenhum resultado encontrado

2.6 Refinamento do modelo

2.6.1 Free R f actor ou R f ree

O principal problema no caso de macromol´eculas tem origem no pr´oprio tipo de cristal que se obt´em. Conforme mencionado na se¸c˜ao2.1, na p´ag. 19, os cristais tˆem alto conte´udo de solvente, com fracas intera¸c˜oes moleculares. Isto faz com que haja maior mobilidade (refletida em altos fatores de tempe- ratura), diminuindo a rela¸c˜ao sinal/ru´ıdo e aumentando o erro associado `as reflex˜oes. Um segundo efeito ´e uma redu¸c˜ao da intensidade dos dados de alta resolu¸c˜ao, o que leva a uma redu¸c˜ao do limite de resolu¸c˜ao (que, em ´ultima instˆancia, ´e a quantidade de informa¸c˜ao dispon´ıvel para refinamento). Em conseq¨uˆencia, a raz˜ao entre n´umero de observa¸c˜oes e o n´umero de parˆametros a ajustar torna-se muito baixa, impedindo o uso de minimiza¸c˜ao por M´ınimos Quadrados e possibilitando facilmente que distor¸c˜oes sejam introduzidas por um over-fitting do modelo. A baixa raz˜ao dados/parˆametros ´e remediada atrav´es da introdu¸c˜ao de v´ınculos estereoqu´ımicos e utiliza¸c˜ao de simetria n˜ao-cristalogr´afica (p´ag. 49) em alguns casos6.

6 NCS introduz correla¸ao entre os fatores de estrutura, de modo que reflex˜oes sele-

2.6 Refinamento do modelo 54 O refinamento de macromol´eculas foi alvo de extensas discuss˜oes durante a d´ecada de 1990 e um grande n´umero de trabalhos sobre o assunto foi publicado chamando aten¸c˜ao para os principais aspectos envolvidos. V´arios dos assuntos mencionados abaixo foram tratados em detalhe, por exemplo, nos artigos Br¨unger, 1992, 1997; Dodson et al., 1996; Kleywegt & Jones,

1995; EU 3-D Validation Network, 1998; Kleywegt & Jones, 1997; Kleywegt & Br¨unger,1996, al´em das pr´oprias referˆencias dadas no in´ıcio deste Cap´ıtulo. Al´em disso, um grande esfor¸co foi feito para melhoria dos protocolos de refinamento. Como resultado, foram feitos novos programas que utilizam Ma- ximum Likelihood como modelo probabil´ıstico para o c´alculo de parˆametros sob refinamento, mais adequadas para refinamento de estruturas de macro- mol´eculas7.

Outro progresso marcante foi a introdu¸c˜ao de um indicador de quali- dade confi´avel. Conforme mencionado acima, no caso de macromol´eculas, o n´umero de parˆametros atˆomicos sob refinamento pode exceder o n´umero de reflex˜oes medidas. A introdu¸c˜ao de novos parˆametros, por exemplo, fa- tores de temperatura anisotr´opicos ou m´ultiplas conforma¸c˜oes, com o in- tuito de melhorar o ajuste dos dados, provavelmente acabe ajustando ru´ıdos, sem adicionar caracter´ısticas genu´ınas da estrutura. Tradicionalmente, um parˆametro utilizado para indicar o qu˜ao bem o modelo ajusta os dados ex- perimentais ´e o Rf actor

R = P

h∈Uwh||Fobs(h)| − k|Fcalc(h)|| P

h∈Uwh|Fobs(h)|

, (2.3)

conjunto de trabalho, o que leva a um valor subestimado para o Rf ree e invalida o teste,

uma vez que n˜ao constituem mais um conjunto independente (Br¨unger,1997;Kleywegt & Br¨unger,1996).

7 O m´etodo de M´ınimos Quadrados ´e um caso particular do Maximum Likelihood e

´

e empregado quando a solu¸c˜ao j´a est´a pr´oxima do m´ınimo, utilizando-se a estat´ıstica χ para avalia¸c˜ao do processo. Al´em disso, ´e o m´etodo de escolha para refinamento no caso de pequenas mol´eculas.

onde U ´e conjunto de todas as reflex˜oes, wh´e um fator de peso (geralmente, inversamente proporcional `a variˆancia da intensidade da reflex˜ao), k ´e um fator de escala e |Fobs(h)| e |Fcalc(h)| s˜ao as amplitudes dos fatores de estru- tura observadas e calculadas, respectivamente. O Rf actor ´e uma medida da concordˆancia entre os fatores de estrutura medidos e calculados.

Apesar de amplamente utilizado, mostrou-se que ´e poss´ıvel obter um Rf actor t˜ao baixo quanto se queira com modelos completamente errados do ponto de vista bioqu´ımico (Branden & Jones,1990;Kleywegt,2000;Kleywegt & Br¨unger, 1996). Al´em disso, uma vez que o modelo ´e refinado contra o mesmo conjunto sobre o qual o teste ´e aplicado, uma introdu¸c˜ao de novos parˆametros ou, de forma equivalente, a exclus˜ao de reflex˜oes do conjunto original, reduz artificialmente o Rf actor.

Este problema foi solucionado com a introdu¸c˜ao da t´ecnica estat´ıstica de cross-validation, que consiste em separar uma fra¸c˜ao dos dados (geralmente 5% das reflex˜oes) em um conjunto-teste que n˜ao ser´a usado desde ´ınicio at´e o final do refinamento. Define-se, ent˜ao, o Rf ree de forma similar

Rf ree = P h∈T wh||Fobs(h)| − k|Fcalc(h)|| P h∈T wh|Fobs(h)| , (2.4)

por´em, desta vez, apenas o conjunto teste (T) das reflex˜oes colocadas `a parte durante o refinamento s˜ao utilizadas para c´alculo do Rf ree (as grandezas wh, k, |Fobs(h)| e |Fcalc(h)| s˜ao definidas da mesma forma que na equa¸c˜ao (2.3) acima).

O Rf ree ´e utilizado para previnir over-fitting, permitindo avaliar se a in- trodu¸c˜ao de novos parˆametros ´e justificada pela adi¸c˜ao de caracter´ısticas genu´ınas do modelo ou se apenas d´a origem a artefatos resultantes da mo- delagem de ru´ıdo presente nos dados. Quanto mais pobres s˜ao os dados, maior a chance de que ru´ıdos sejam erroneamente modelados atrav´es da in-

2.6 Refinamento do modelo 56 trodu¸c˜ao de novos parˆametros, o que se reflete num aumento da diferen¸ca entre o Rf actor e o Rf ree (neste caso, apenas o primeiro decai). V´ınculos de NCS, ao contr´ario, diminuem o n´umero de parˆametros e a diferen¸ca entre os dois fatores.

Outras aplica¸c˜oes do Rf ree s˜ao a indica¸c˜ao de erros introduzidos no mo- delo durante o processo de reconstru¸c˜ao, a otimiza¸c˜ao do protocolo de refina- mento, guiando a determina¸c˜ao de valores apropriados para parˆametros como o peso dos v´ınculos estereoqu´ımicos em rela¸c˜ao aos dados experimentais e o peso dos v´ınculos utilizados quando h´a NCS. Tamb´em, uma estimativa da acuidade do modelo pode ser obtida a partir do conjunto-teste utilizado para o c´alculo do Rf ree.

Documentos relacionados