Docking molecular utilizando arquiteturas distribuídas

O Dovis (ZHANG et al., 2008) é um sistema que utiliza o ambiente

distribuído de um cluster para realizar virtual screening em larga escala através

de uma interface gráfica. O programa de docking molecular utilizado neste

estudo foi o AutoDock (GOODSELL; MORRIS; OLSON, 1996). Este sistema

HPC, high-performance computing, é capaz de realizar, em cada unidade de

processamento (CPU), entre 500 a 1000 cálculos de docking molecular por dia.

 Pré-docking: Nesta etapa, ocorre a conversão das moléculas selecionadas, do formato PDB (ou MOL2), para o formato PDBQT, o

qual é o formato padrão para a execução do cálculo de docking

molecular através do AutoDock. Após esta conversão de arquivos, as

moléculas são dividas em N subgrupos, sendo N o número de

processadores disponíveis no cluster e cada subgrupo tendo

aproximadamente o mesmo número de moléculas.

 Docking molecular em paralelo: Antes do procedimento de docking molecular, é efetuado, para cada receptor, o cálculo dos mapas da

grade de energia (utilizando o programa AutoGrid, explicado na seção

do 2.1.1.1 AutoDock) de cada tipo de átomo presente nos ligantes que

irão interagir com o receptor em questão. Após estes cálculos, é

efetuado o docking molecular e os resultados, baseados nas energias de

interação calculadas, são comparados entre os resultados dos outros

processadores, para assim, ser possível determinar os melhores

resultados globais.

 Pós-docking: Os melhores resultados coletados na etapa anterior são comprimidos e gravados em um diretório do sistema, com os resultados

finais.

Em sua versão 2.0 (JIANG et al., 2008), com o intuito de aumentar a

performance, o Dovis teve seu algoritmo de escalonamento modificado para

dinâmico, permitindo o balanceamento do cluster em tempo real. Além disso, o

código fonte do programa AutoDock também foi modificado para reduzir os

acessos ao disco rígido na escrita dos arquivos de resultados durante o

em questão utilizava um disco rígido comum a todas as máquinas, e o excesso

de escrita simultânea neste disco sobrecarregava-o, tornando-o mais lento, e

consequentemente os cálculos de docking molecular demoravam mais.

Com o intuito de classificar as soluções de docking molecular mais

favoráveis dentre as encontradas nos cálculos, os programas de docking

molecular utilizam uma função de pontuação, comumente conhecida como

score, e que, geralmente, é única para cada programa. O Dovis 2.0 permite que o usuário utilize uma função de pontuação diferente da empregada no

programa de docking molecular selecionado, procedimento este conhecido pelo

nome de re-score. Com isso, pode-se gerar uma nova classificação para os

resultados obtidos. Além disto, há a opção de converter os resultados finais

para o formato SDF, formato amplamente utilizado na modelagem molecular de

fármacos (JIANG et al., 2008).

Os testes de validação do desempenho do Dovis 1.0 com o banco de

dados ZINC, utilizando gradualmente até 128 núcleos de processamento

(CPUs), demonstrou uma progressão quase linear no ganho de desempenho

obtido. O cruzamento do banco de dados ZINC com a cadeia A da proteína

Ricina, utilizando 256 CPUs, conseguiu realizar o docking de aproximadamente

700 ligantes por CPU, ao dia (ZHANG et al., 2008).

O sistema Haddock (DOMINGUEZ; BOELENS; BONVIN, 2003; DE

VRIES; VAN DIJK; BONVIN, 2010) é um exemplo de servidor web para

docking molecular com o auxilio de dados experimentais (knowledge based) das moléculas. Seu método de docking molecular consiste em minimização de

um refinamento final com solvente explicito. Possui interfaces voltadas para

cada nível de usuário:

 Fácil: Requer apenas as estruturas e a lista dos resíduos do sitio ativo que interagem com o ligante. Para todos os outros parâmetros utilizados

no procedimento de docking, é definido o valor padrão ou determinado

automaticamente.

 Especialista: Permite a personalização de alguns parâmetros, tais como a definição dos segmentos flexíveis, distâncias entre os átomos, estado

de protonação, dentre outros.

 Guru: Nesta interface, além de permitir as mesmas alterações da interface especialista, também dá acesso a configuração de constantes,

tais como, constantes de força, temperatura e pesos dos termos da

função de pontuação (score).

Todo o processamento é feito no cluster dedicado a este projeto e conta

também com acesso ao ambiente de grid computacional europeu e-NMR (e-

NMR, 2012), caso necessite de mais poder computacional.

Outro exemplo de docking molecular em sistemas distribuídos é o

sistema Mola, desenvolvido para execução de virtual screening em um

pequeno cluster heterogêneo com máquinas não dedicadas. Sua arquitetura

utiliza uma versão personalizada LIVE-CD, não necessitando instalação, do

sistema operacional Linux, o que fornece os recursos para integrar máquinas

com sistemas operacionais e hardware heterogêneos, utilizando os protocolos

LAM-MPI (LAM-MPI, 2012), Local Area Multicomputer MPI, e o MPICH

(MPICH, 2012), MPI CHameleon, ambos baseados no MPI (Message Parsing

Por se tratar de um LIVE-CD, não há qualquer modificação no sistema

operacional original de cada uma das máquinas utilizadas no cluster, e assim,

ao termino da execução, as máquinas voltam ao seu estado original. É

necessário que cada uma das máquinas que integram o cluster possua a

funcionalidade PXE, Preeboot eXecution Everionment, o qual permite a

inicialização do sistema a partir do comando de outra máquina ligada na

mesma rede.

Os programas de docking molecular disponíveis neste sistema são o

AutoDock (GOODSELL; MORRIS; OLSON, 1996) e o AutoDock Vina (TROTT;

OLSON, 2010), ambos desenvolvidos pelo The Scripps Research Institute

(Scripps Research Institute, 2012).

A preparação das moléculas deve ser realizada através do AutoDock

Tools (ADT, 2012), incluso no sistema operacional. No caso do AutoDock, é

necessário preparar os mapas atômicos, etapa realizada através do módulo

AutoGrid. Após a preparação inicial é possível configurar os ajustes (setups) de

docking específicos de cada programa, tais como os parâmetros do algoritmo genético do programa AutoDock e a variável exhaustiveness, responsável pelo

número de execuções da etapa de refinamento parcial dos cálculos individuais,

no caso do programa AutoDock Vina.

Durante a execução dos cálculos de docking molecular, o sistema Mola

envia, para cada máquina, uma instância de execução do programa AutoDock

para cada CPU. No caso do AutoDock Vina, apenas uma instância é enviada

por máquina, uma vez que este programa é otimizado para utilizar todos os

atribuídas apenas quando as execuções nas máquinas finalizam, e assim,

evitando sobrecarregar máquinas mais lentas e mantendo o cluster estável.

Ao utilizar 5 máquinas dual-core, totalizando 10 CPUs, este sistema foi

capaz de realizar o docking de 237 ligantes por dia para o programa AutoDock

e 575 ligantes por dia para o programa AutoDock Vina, em cada CPU.

Portanto, o trabalho de pesquisa apresentado tem o objetivo de propor o

uso do ambiente distribuído através de um grid computacional para acelerar os

cálculos de docking molecular, por meio do desenvolvimento do programa

GriDoMol, programa este capaz de criar e submeter tarefas de docking

3 OBJETIVOS

No documento Desenvolvimento e implementação de software para aplicação de grids computacionais em modelagem para inovação terapêutica (páginas 41-47)