O Dovis (ZHANG et al., 2008) é um sistema que utiliza o ambiente
distribuído de um cluster para realizar virtual screening em larga escala através
de uma interface gráfica. O programa de docking molecular utilizado neste
estudo foi o AutoDock (GOODSELL; MORRIS; OLSON, 1996). Este sistema
HPC, high-performance computing, é capaz de realizar, em cada unidade de
processamento (CPU), entre 500 a 1000 cálculos de docking molecular por dia.
Pré-docking: Nesta etapa, ocorre a conversão das moléculas selecionadas, do formato PDB (ou MOL2), para o formato PDBQT, o
qual é o formato padrão para a execução do cálculo de docking
molecular através do AutoDock. Após esta conversão de arquivos, as
moléculas são dividas em N subgrupos, sendo N o número de
processadores disponíveis no cluster e cada subgrupo tendo
aproximadamente o mesmo número de moléculas.
Docking molecular em paralelo: Antes do procedimento de docking molecular, é efetuado, para cada receptor, o cálculo dos mapas da
grade de energia (utilizando o programa AutoGrid, explicado na seção
do 2.1.1.1 AutoDock) de cada tipo de átomo presente nos ligantes que
irão interagir com o receptor em questão. Após estes cálculos, é
efetuado o docking molecular e os resultados, baseados nas energias de
interação calculadas, são comparados entre os resultados dos outros
processadores, para assim, ser possível determinar os melhores
resultados globais.
Pós-docking: Os melhores resultados coletados na etapa anterior são comprimidos e gravados em um diretório do sistema, com os resultados
finais.
Em sua versão 2.0 (JIANG et al., 2008), com o intuito de aumentar a
performance, o Dovis teve seu algoritmo de escalonamento modificado para
dinâmico, permitindo o balanceamento do cluster em tempo real. Além disso, o
código fonte do programa AutoDock também foi modificado para reduzir os
acessos ao disco rígido na escrita dos arquivos de resultados durante o
em questão utilizava um disco rígido comum a todas as máquinas, e o excesso
de escrita simultânea neste disco sobrecarregava-o, tornando-o mais lento, e
consequentemente os cálculos de docking molecular demoravam mais.
Com o intuito de classificar as soluções de docking molecular mais
favoráveis dentre as encontradas nos cálculos, os programas de docking
molecular utilizam uma função de pontuação, comumente conhecida como
score, e que, geralmente, é única para cada programa. O Dovis 2.0 permite que o usuário utilize uma função de pontuação diferente da empregada no
programa de docking molecular selecionado, procedimento este conhecido pelo
nome de re-score. Com isso, pode-se gerar uma nova classificação para os
resultados obtidos. Além disto, há a opção de converter os resultados finais
para o formato SDF, formato amplamente utilizado na modelagem molecular de
fármacos (JIANG et al., 2008).
Os testes de validação do desempenho do Dovis 1.0 com o banco de
dados ZINC, utilizando gradualmente até 128 núcleos de processamento
(CPUs), demonstrou uma progressão quase linear no ganho de desempenho
obtido. O cruzamento do banco de dados ZINC com a cadeia A da proteína
Ricina, utilizando 256 CPUs, conseguiu realizar o docking de aproximadamente
700 ligantes por CPU, ao dia (ZHANG et al., 2008).
O sistema Haddock (DOMINGUEZ; BOELENS; BONVIN, 2003; DE
VRIES; VAN DIJK; BONVIN, 2010) é um exemplo de servidor web para
docking molecular com o auxilio de dados experimentais (knowledge based) das moléculas. Seu método de docking molecular consiste em minimização de
um refinamento final com solvente explicito. Possui interfaces voltadas para
cada nível de usuário:
Fácil: Requer apenas as estruturas e a lista dos resíduos do sitio ativo que interagem com o ligante. Para todos os outros parâmetros utilizados
no procedimento de docking, é definido o valor padrão ou determinado
automaticamente.
Especialista: Permite a personalização de alguns parâmetros, tais como a definição dos segmentos flexíveis, distâncias entre os átomos, estado
de protonação, dentre outros.
Guru: Nesta interface, além de permitir as mesmas alterações da interface especialista, também dá acesso a configuração de constantes,
tais como, constantes de força, temperatura e pesos dos termos da
função de pontuação (score).
Todo o processamento é feito no cluster dedicado a este projeto e conta
também com acesso ao ambiente de grid computacional europeu e-NMR (e-
NMR, 2012), caso necessite de mais poder computacional.
Outro exemplo de docking molecular em sistemas distribuídos é o
sistema Mola, desenvolvido para execução de virtual screening em um
pequeno cluster heterogêneo com máquinas não dedicadas. Sua arquitetura
utiliza uma versão personalizada LIVE-CD, não necessitando instalação, do
sistema operacional Linux, o que fornece os recursos para integrar máquinas
com sistemas operacionais e hardware heterogêneos, utilizando os protocolos
LAM-MPI (LAM-MPI, 2012), Local Area Multicomputer MPI, e o MPICH
(MPICH, 2012), MPI CHameleon, ambos baseados no MPI (Message Parsing
Por se tratar de um LIVE-CD, não há qualquer modificação no sistema
operacional original de cada uma das máquinas utilizadas no cluster, e assim,
ao termino da execução, as máquinas voltam ao seu estado original. É
necessário que cada uma das máquinas que integram o cluster possua a
funcionalidade PXE, Preeboot eXecution Everionment, o qual permite a
inicialização do sistema a partir do comando de outra máquina ligada na
mesma rede.
Os programas de docking molecular disponíveis neste sistema são o
AutoDock (GOODSELL; MORRIS; OLSON, 1996) e o AutoDock Vina (TROTT;
OLSON, 2010), ambos desenvolvidos pelo The Scripps Research Institute
(Scripps Research Institute, 2012).
A preparação das moléculas deve ser realizada através do AutoDock
Tools (ADT, 2012), incluso no sistema operacional. No caso do AutoDock, é
necessário preparar os mapas atômicos, etapa realizada através do módulo
AutoGrid. Após a preparação inicial é possível configurar os ajustes (setups) de
docking específicos de cada programa, tais como os parâmetros do algoritmo genético do programa AutoDock e a variável exhaustiveness, responsável pelo
número de execuções da etapa de refinamento parcial dos cálculos individuais,
no caso do programa AutoDock Vina.
Durante a execução dos cálculos de docking molecular, o sistema Mola
envia, para cada máquina, uma instância de execução do programa AutoDock
para cada CPU. No caso do AutoDock Vina, apenas uma instância é enviada
por máquina, uma vez que este programa é otimizado para utilizar todos os
atribuídas apenas quando as execuções nas máquinas finalizam, e assim,
evitando sobrecarregar máquinas mais lentas e mantendo o cluster estável.
Ao utilizar 5 máquinas dual-core, totalizando 10 CPUs, este sistema foi
capaz de realizar o docking de 237 ligantes por dia para o programa AutoDock
e 575 ligantes por dia para o programa AutoDock Vina, em cada CPU.
Portanto, o trabalho de pesquisa apresentado tem o objetivo de propor o
uso do ambiente distribuído através de um grid computacional para acelerar os
cálculos de docking molecular, por meio do desenvolvimento do programa
GriDoMol, programa este capaz de criar e submeter tarefas de docking
3 OBJETIVOS