2 Relatório de Iniciação Científica PARALELIZAÇÃO DE SOFTWARE PARA SIMULAÇÕES DE DOCKING EM ESTRUTURA DE CLUSTERS BEOWULF. Processo 02/

(1)

2° Relatório de Iniciação Científica

PARALELIZAÇÃO DE SOFTWARE PARA SIMULAÇÕES DE DOCKING EM ESTRUTURA DE

CLUSTERS BEOWULF

Processo 02/04310-0

Orientado: Hugo Brandão Uchôa

Orientador: Prof. Dr. Walter Filgueira de Azevedo Júnior www.biocristalografia.df.ibilce.unesp.br

(2)

(3)

De acordo com o cronograma do projeto inicial, nos primeiros seis meses seria realizada a paralelização do software de docking GRAMM (Global Range Molecular Matching ) em um cluster (grupo de computadores ligados através de uma rede Ethernet) Beowulf. Os últimos seis meses seriam usados para a realização de dockings utilizando o GRAMM , com o objetivo de analisar possíveis inibidores de CDK (Cyclin-Dependent Kinases) e da chiquimato quinase do Mycobacterium tuberculosis.

No presente relatório estão detalhados os últimos 6 meses de trabalho nos quais o objetivo principal era fazer simulações de dockings. Foram realizados dockings com as proteínas CDK5 (Cyclin-Dependent Kinases 5) e chiquimato quinase do Mycobacterium tuberculosis. Além dos dockings, foi realizada a modelagem molecular por homologia da CDK5 e a construção de interfaces WEB para os programas DistGramm (que realiza a automação e paralelização do GRAMM) e ParModel (realiza a automação e paralelização do Modeller).

No capítulo 1 será visto uma introdução destacando a importância das proteínas e conseqüentemente a grande importância dos procedimentos de modelagem molecular por homologia e docking de proteínas. O capítulo 2 descreve em detalhes estas duas técnicas (docking e modelagem molecular) permitindo se ter uma idéia relativa ao funcionamento dos softwares utilizados para estes procedimentos (GRAMM e Modeller).

Já no capítulo 3 é detalhado todo o processo de modelagem molecular da CDK5 e posteriormente as simulações de dockings desta proteína com a roscovitina. No capítulo 4 será mostrado o docking da chiquimato quinase do Mycobacterium tuberculosis com o chiquimato ou ácido chiquímico.

No capítulo 5 será dada uma breve descrição das interfaces criadas para os programas DistGramm e ParModel, dando um enfoque também à performance destes dois softwares. No capítulo 6 serão vistas as atividades extra-cronograma realizadas.

E para finalizar, no capítulo 7 serão vistas algumas perspectivas de trabalho para a área de bioinformática e no capítulo 8 será feita uma conclusão.

(4)

(5)

1. Introdução ... 7

2. Modelagem Molecular e Docking de Macromoléculas Biológicas ... 8

2.1. Modelagem molecular por homologia ... 8

2.2. Docking

de Macromoléculas Biológicas ... 14

3. Modelagem e docking da Quinase dependente de ciclina 5 complexada com

roscovitina ... 15

3.1. As quinases dependentes de ciclinas (CDKs)... 15

3.2. A CDK 5 e a roscovitina ... 18

3.3. Modelagem da CDK5 ... 19

3.4. Docking

da CDK5 com roscovitina ... 23

4. Docking da Chiquimato Quinase de Mycobacterium tuberculosis (mtCQ) com o

chiquimato ... 28

4.1. O Mycobacterium tuberculosis e a via metabólica do ácido chiquímico... 28

4.2. O docking da chiquimato quinase com o chiquimato ... 30

5. Interfaces e performance do DistGramm e Parmodel ... 32

5.1. DistiGramm ... 32

5.2. O ParModel ... 33

6. Atividades extracronograma realizadas... 35

6.1. Apresentação em congressos... 35

6.2. Programa para o alinhamento de seqüências de aminoácidos e proteínas ... 36

7. Perspectivas de Trabalho para Área de Bioinformática... 38

8. Conclusão ... 39

(6)

(7)

1. Introdução

“ Eu sustento que a única finalidade da ciência está em aliviar a miséria da existência humana” (Bertold Brecht)

Proteínas são macromoléculas que estão envolvidas em praticamente todos os processos vitais dos seres vivos. Ao lado dos ácidos nucléicos, as proteínas configuram o principal alvo de estudo da biologia molecular. Dessa forma, elas se tornam também importantes alvos para o desenvolvimento de drogas, pois inibindo determinada proteína pode-se interromper o processo vital do organismo ao qual ela está associada [SAW1997].

As proteínas podem ser representadas através de diferentes tipos de estruturas: a estrutura primária que representa apenas a seqüência de aminoácidos contidos na proteína, a estrutura secundária que determina a presença de conformações regulares locais, a estrutura terciária que representa a distribuição no espaço tri-dimensional dos aminoácidos contidos na proteína e a estrutura quaternária que representa a distribuição espacial de proteínas com mais de uma cadeia polipeptídica. Na natureza as proteínas se apresentam em suas estruturas terciárias e quaternárias, portanto elas só desempenharão suas funcionalidades quando estiverem representadas neste tipo de estrutura [VOE1995].

O processo para determinar a seqüência de aminoácidos em uma proteína é relativamente simples, mas nem sempre é possível determinar a estrutura tridimensional de uma proteína, pois os métodos existentes para esse fim (Cristalografia e Ressonância Magnética Nuclear) dependem de uma série de condições que podem não ser atingidas.

Dessa forma, para que possa se obter um modelo tridimensional de uma proteína é necessário o uso de técnicas computacionais. A principal técnica utilizada é a modelagem molecular por homologia que constrói o modelo tridimensional da proteína usando como moldes outras proteínas que possuem suas estruturas terciárias resolvidas por métodos experimentais.

Mas, além da necessidade de se obter o modelo tridimensional de uma proteína, muitas vezes é necessário detectar regiões na superfície da proteína onde outras moléculas poderão se ligar. Isto porque a agregação de uma determinada molécula pode interromper a funcionalidade da proteína, podendo esta molécula ser um importante alvo para a fabricação de drogas. As possíveis ligações de uma molécula na superfície de uma proteína também podem ser simuladas computacionalmente em um processo conhecido como docking.

(8)

No presente relatório será visto como a modelagem molecular e o docking podem ser úteis na tentativa de se descobrir inibidores de proteínas e conseqüentemente possíveis alvos de drogas. Além disso, será visto também como estas tecnologias podem estar disponíveis a grupos que não têm acesso a elas, através da construção de ferramentas para Internet e com o tempo de processamento reduzido através do uso de computação paralela.

2. Modelagem Molecular e Docking de Macromoléculas Biológicas

Neste capítulo será feita uma introdução aos processos de modelagem molecular por homologia e docking de macromoléculas biológicas.

2.1. Modelagem molecular por homologia

A Modelagem molecular por homologia é uma técnica de desenvolvimento de modelos tridimensionais que parte de uma seqüência primária conhecida de uma proteína cuja estrutura tridimensional é indeterminada e utiliza como molde uma ou mais seqüências de proteínas cujas estruturas tridimensionais já foram resolvidas, e que possuem alta similaridade com a molécula de interesse [BOU2003].

O processo de modelagem pode ser dividido em 5 etapas. Através do fluxograma da figura 2.1 pode-se visualizar as etapas do processo de modelagem.

Segue a descrição de cada uma das etapas:

● Busca por templates - consiste em realizar uma busca por proteínas que possuem suas estruturas tridimensionais resolvidas. Esta busca é realizada em banco de dados de estruturas terciárias de proteínas, sendo que o principal deles é o PDB (Protein Data Bank)[BER2000]. O principal parâmetro usado para realizar a busca dos templates é a porcentagem de identidade entre a seqüência do template e seqüência da proteína que será modelada. Para que se possa determinar a porcentagem de identidade entre as duas seqüências, deve-se primeiramente alinhar as duas seqüências. O objetivo é fazer com que o maior número possível de aminoácidos coincidentes fiquem alinhados e desta forma poderá ser identificada a porcentagem de identidade entre as duas seqüências. Existem inúmeras ferramentas na WEB que realizam a busca por templates.

● Seleção dos templates – Este processo é o mais importante na modelagem, pois a qualidade do template irá determinar a qualidade do modelo final [HIG2000]. Neste processo, é feita a seleção dos

(9)

templates que apresentam maior identidade com a proteína alvo. Geralmente utiliza-se 30% como o valor de corte na porcentagem de identidade entre duas seqüências de aminoácidos. Mas, além da identidade entre as seqüências, a escolha por templates pode também obedecer outros parâmetros: resolução dos templates (são escolhidos os templates de maior resolução), família da proteína (são escolhidas como templates proteínas da mesma família da proteína alvo da modelagem) e função biológica dos templates (é dada preferência a templates que possuem funções biológicas similares às da proteína a ser modelada). Deve ficar claro que estes parâmetros são adicionais à identidade, que deve ser imprescindível para a busca por templates.

Figura 2.1: Fluxograma do processo de Modelagem

● Alinhamento – após escolhido um ou vários templates é necessário realizar o alinhamento das seqüências dos templates com a seqüência da proteína a ser modelada. Este alinhamento difere do alinhamento realizado na busca por templates, pois neste momento o alinhamento das seqüências servirá de entrada para o programa que realiza a modelagem. Existem vários algoritmos de alinhamento, entre os

(10)

quais pode-se citar o Fasta [PEA1988] e o Blast [ALT1997]. Dessa forma, existem vários programas que realizam o alinhamento de seqüências. O alinhamento será de muita importância para modelagem molecular, pois se um grande número de aminoácidos idênticos estiverem alinhados, o programa que realiza a modelagem terá uma maior facilidade para representar as posições no espaço tridimensional dos aminoácidos da proteína alvo.

● Modelagem – depois de realizada a busca e seleção de templates, e concluído o alinhamento, será realizada a modelagem. Neste procedimento, o software escolhido irá receber como entrada o arquivo contendo as seqüências alinhadas e o arquivo contendo as coordenadas tridimensionais do template (ou dos templates). Dessa forma, ele irá construir a estrutura tridimensional da proteína alvo baseado nas coordenadas tridimensionais do template.

● Análise – Após concluída a modelagem o próximo passo será fazer a análise da estrutura gerada. Esta análise consiste em estudar as posições atômicas dos modelos de modo que se possa determinar a qualidade esteroquímica do modelo da proteína em questão. Para que se possa avaliar a qualidade estereoquímica de uma proteína devem ser analisados os ângulos ψ (psi) e φ (phi)(figura 2.2). Estes ângulos são de fundamental importância para definir a qualidade estereoquímica de uma estrutura de proteína, pois ela é definida através da disposição da cadeia principal da proteína de modo que os ângulos phi e psi sejam respeitados. De forma geral, um modelo de proteína com boa qualidade estereoquímica seria aquele onde pelo menos 85% de seus resíduos estivessem em regiões onde estes ângulos não permitam que átomos distintos tentem ocupar as mesmas posições no espaço [SAN2000]. Caso o modelo apresente uma boa qualidade estereoquímica então ele poderá ser aceito como um modelo relativamente confiável para a proteína e poderá auxiliar no estudo estrutural e funcional desta proteína, além de poder contribuir para o desenvolvimento de drogas baseado em estrutura. Entretanto, caso o modelo não apresente uma boa estereoquímica a solução pode ser tentar buscar outros templates.

(11)

Figura 2.2: Ângulos phi e psi do carbono alfa

O Modeller [SAL2001] é o principal programa utilizado para modelagem molecular por homologia. Este programa realiza quase todos os estágios da modelagem molecular, desde a busca por templates até a modelagem. A única etapa que o Modeller não realiza é a análise do modelo gerado, tarefa esta realizada pelo software Procheck [LAS1998]. O Procheck retorna como sua saída além de outros elementos, o mapa de Ramachandran da proteína modelada. Este mapa representa a posição dos átomos das proteínas de acordo com os ângulos phi e psi, em regiões permitidas, altamente permitidas e não permitidas.

Para a realização do alinhamento da seqüência da proteína alvo com a seqüência dos templates, o Modeller receberá como entrada um arquivo com a extensão .top (Figura 2.3). Este arquivo irá conter os parâmetros necessários para o procedimento de alinhamento.

READ_MODEL FILE = ´1HMS.pdb´

SEQUENCE_TO_ALI ALIGN_CODES = ´1HMS´

READ_ALIGNMENT FILE = ´blbp.seq´, ALIGN_CODES = ´blbp´, ADD_SEQUENCE = on ALIGN2D

WRITE_ALIGNMENT FILE = ´blbp-1HMS.ali´, ALIGNMET_FORMAT = ´PIR´ WRITE_ALIGNMENT FILE = ´blbp-1HMS.pap´, ALIGNMET_FORMAT = ´PAP´

(12)

De acordo com o exemplo apresentado na figura acima, na primeira linha o Modeller lê o arquivo de coordenadas atômicas do template, denominado 1HMS.pdb. O comando SEQUENCE_TO_ALI transfere a seqüência da estrutura do template para a memória e determina o nome ´1HMS´ (ALIGN_CODES). A terceira linha lê a seqüência BLBP do arquivo blbp.seq que representa o nome do arquivo contendo a seqüência da proteína alvo, determinando o nome ´blbp´ (ALIGN_CODES) e adiciona na memória do alinhamento (´ADD_SEQUENCE = on´). A quarta linha chama o comando ALIGN2D para realizar o alinhamento. Finalmente, o alinhamento é escrito em dois formatos de saída, ´PIR´ e ´PAP´. O ´PIR´ é usado pelo Modeller no estágio subseqüente para construção do modelo. O ´PAP´ mostra o alinhamento de forma clara, apresentando os resíduos idênticos representados por ´*´. A saída após executar o comando ´mod alinhamento.top´ será os aquivos ´blbp-1HMS.ali´ e ´blbp-1HMS.pap´.

>P1;1CT9 structureX:1CT9:1 ::516 ::undefined:undefined:-1.00:-1.00 -ASIFGVFDIKT--DAVELRSKALELSRLMRHRGPDWSGIYASDNAILAH ERLSIVDVNAGAQPLYNQQKTHVLAVNGEIYNHQALRAEYGDRYQFQTGS DCEVILALYQEKGP-EFLDDLQGMFAFALYDSEKDAYLIGRDHLGIIPLY MGYDEHGQLYVASEMKALVPVCRTIKEFPAGSYLWSQDGEIRSYYHRDWF DYDAVKDNVTDKNELRQALEDSVKSHLMSDVPYGVLLSGGLDSSIISAIT KKYA---AQLHSFAVGLPGSPDLKAAQEVANHLGTVHHE * >P1;XF0118 sequence:XF0118: :: :::: 0.00: 0.00 MCSIFGIFNLQPSDNLQRLRHQALECSQRQRHRGPDWSGVYVDVGAILVH ERLAIVDPAGGAQPLLSEDGTLALAVNGEIYNHAVLKGTLQQPYVFQTHS DCEVINALYREETPTSFLNRLNGIFAFALWDKTTGRGLIARDPMGVVPLY WGHDQDGRLRVASEMKALIEHCPDVAQFPPGHWYDTTTGTLVKYYERSWK NYSAVEGVQVSLQELREAFERAVHRQLMTDVPYGVLLSGGLDSSLVAAVA ARYARHRIETNDQSEAWWPRLHSFAIGLKDSPDLSAANVAAEALNTVHHG *

Figura 2.4: Alinhamento de seqüências

Na figura 2.4 está representado o resultado do alinhamento (arquivo ‘XF0118-1CT9.ali’) da seqüência da proteína alvo XF0118 com o template 1CT9 através do Modeller. Os traços que aparecem na seqüência do template denominam-se gaps, e são usados para deslocar as seqüências dos aminoácidos de forma que se obtenha uma maior porcentagem de identidade.

Depois de obtido o arquivo representado na figura 2.4 o Modeller estará pronto para realizar a modelagem da estrutura. Para que a modelagem seja realizada ele recebe como entrada um outro arquivo com a extensão .top (Figura 2.5).

(13)

INCLUDE

SET ALNFILE = ´blbp-1HMS.ali´ SET KNOWNS = ´1HMS´ SET SEQUENCE = ´blbp´ SET STARTING_MODEL = 1 SET ENDING_MODEL = 1 CALL ROUTINE = ´model´

Figura 2.5: Arquivo de entrada da modelagem

O arquivo .top representado na figura 2.5 construíra modelos para a proteína BLBP, baseados no template 1HMS e no arquivo de alinhamento ´blbp-1HMS.ali´. A primeira linha inclui diferentes níveis de variáveis e definições de rotina. As cinco linhas seguintes fixam parâmetros de valores para a rotina ´model´. ALNFILE é o nome do arquivo que contém o alinhamento ‘alvo-template’ no formato PIR. KNOWNS é o nome que corresponde aos templates. SEQUENCE corresponde ao nome da seqüência alvo em ALNFILE. STARTING_MODEL e ENDING_MODEL definem o número de modelos que serão calculados para esta modelagem. A linha seguinte fará uma chamada à rotina ´model´ que irá realizar as modelagens.

Vale a pena salientar que o exemplo mostrado é de uma modelagem simples, podendo, portanto, serem acrescentados vários outros parâmetros na realização do procedimento de modelagem através do Modeller. Além disso, para que se possam obter modelos de qualidade, geralmente é gerado um grande número de modelos (cerca de 1000 modelos).

Apesar do Modeller incorporar ferramentas de alinhamento de seqüências e até mesmo da busca por bancos de dados, o ponto inicial para o Modeller é um alinhamento seqüencial múltiplo entre a seqüência alvo e as seqüências protéicas do modelo (que acabou de ser descrito). O Modeller usa as coordenadas espaciais dos templates para gerar um conjunto de restrições espaciais, que são aplicadas à seqüência alvo. As restrições limitam se, por exemplo, à distância entre dois resíduos no modelo que está sendo construído, baseadas na distância entre dois resíduos homólogos do template. As restrições também podem ser aplicadas aos ângulos de ligação, ângulos diedros e pares de diedros. Ao aplicar um bom número dessas restrições espaciais, o Modeller limita efetivamente o número de configurações que o modelo pode assumir [SAL2001].

A forma exata das restrições é baseada em uma análise estatística de diferenças entre pares de estruturas homólogas. Essas estatísticas contribuem com uma descrição quantitativa de quantas propriedades podem variar entre as estruturas homólogas. A quantia de variação permitida entre, por

(14)

exemplo, distâncias de carbono alfa para carbono alfa é expressa como uma PDF (função de densidade de probabilidade).

O que o uso de restrições baseadas em PDF permite fazer em modelagem por homologia, é construir uma estrutura que não é exatamente como a estrutura do modelo. Em vez disso, permite que a estrutura do modelo seja diferente da referência, mas somente de uma forma compatível com as diferenças encontradas entre as proteínas homólogas com o template. Por exemplo, se um determinado ângulo de diedro na estrutura tiver um valor de -60°, deve-se aplicar uma restrição baseada em PDF que permita que o ângulo de diedro assuma um valor de 60 a mais ou a menos. Esse valor é determinado pelo que é observado nos pares de estruturas homólogas conhecidas, e é atribuído probabilisticamente, de acordo com a forma da função de densidade de probabilidade [SAL2001].

As restrições espaciais baseadas em homologia não são as únicas restrições aplicadas ao modelo. Um campo de força para controlar a estereoquímica apropriada também é aplicado para que a estrutura do modelo não possa violar as regras da química para satisfazer as restrições espaciais derivadas do template. Todas as restrições químicas e espaciais aplicadas ao modelo são combinadas em uma função (denominada função objetiva) que é otimizada no curso do processo de construção dos modelos. Assim, quanto maior for o número de modelos construídos maior será a chance de se obter melhores modelos.

Nos capítulos posteriores será visto como a utilização desta ferramenta foi importante para a conclusão das tarefas propostas inicialmente.

2.2. Docking de Macromoléculas Biológicas

Docking de macromoléculas biológicas é o processo de ligação entre duas moléculas, que podem ser: duas proteínas, uma proteína e um ligante, etc. Os programas que realizam docking procuram a melhor forma de realizar esta ligação, através da busca de possíveis sítios de ligação [VAL1994].

Uma das questões fundamentais em biologia estrutural é o estudo da interação proteína ligante. Através destas interações podem ser descobertos inibidores para as estruturas de proteínas. Este processo é muito importante para aplicações farmacológicas, como o desenho de drogas baseado em estrutura, pois estes ligantes podem inibir uma proteína vital para um determinado organismo, e assim serem usados como inibidores.

Existem diversos programas que realizam docking, entre eles o GRAMM [VAL1994] [VAL1995] [VAL1996] [VAL1997] [VAL1999] que foi utilizado neste projeto. O GRAMM (Global Range Molecular Matching) é um programa que realiza o docking através de uma busca exaustiva em seis dimensões nas

(15)

translações e rotações relativas das moléculas. Para achar os possíveis sítios de ligação entre as moléculas, o GRAMM utiliza uma metodologia de aproximação empírica minimizando a função de energia intermolecular através da mudança dos intervalos de potenciais entre os átomos. A qualidade dos resultados irá depender da precisão das estruturas. Assim, o docking de estruturas a alta resolução com pequenas mudanças conformacionais produzirão um resultado preciso, enquanto o docking de estruturas a baixas resoluções nos dará apenas as características mais grosseiras do complexo [KAT1992].

A seguir será visto o uso do GRAMM no docking de proteína-ligante, na tentativa de identificar possíveis ligantes para estas estruturas.

3. Modelagem e docking da Quinase dependente de ciclina 5 complexada com

roscovitina

3.1. As quinases dependentes de ciclinas (CDKs)

A fosforilação de proteínas, iniciada em resposta a sinais extracelulares, representa um mecanismo universal para o controle celular de diferentes processos, entre eles as vias metabólicas, o crescimento e diferenciação celular, transporte através da membrana, e a apoptose [HUN1995][JOH2001].

Este processo de fosforilação de proteínas é catalisado por uma grande família de proteínas homólogas conhecidas como Quinases, as quais catalisam a transferência do grupo fosfato do ATP para resíduos específicos do substrato [SCA2002]

Estima-se que existam, nos seres humanos, entre 1000 e 2000 diferentes Quinases, dentre as quais, a família das Quinases dependentes de Ciclina (CDK), que tem sido extensivamente estudada por sua função essencial para as células [MEI2000]. Como o próprio nome diz, as CDKs dependem das ciclinas para realizarem as suas funções. Na figura 3.1 pode-se ver a atividade da CDK1 durante o ciclo celular em uma célula animal.

(16)

Figura 3.1: Atividade da CDK1 durante o ciclo celular em uma célula animal [VOE1995]

Cada CDK, durante sua breve existência, fosforila suas proteínas alvo que então, direta ou indiretamente, ativam o próximo conjunto de eventos do ciclo celular. Uma CDK, quando ativa, apresenta-se como um heterodímero composto de uma subunidade catalítica, a Quinaapresenta-se, e uma subunidade regulatória, a Ciclina, que ativa a Quinase. Em células de vertebrados existem pelo menos quatro diferentes CDKs envolvidas no controle do ciclo celular, assim como outras CDKs que desempenham outras funções [BRA1998].

(17)

Figura 3.2: Diversas CDKs e suas ciclinas associadas

A busca por inibidores para CDKs foi iniciada devido a sua atividade anti-tumoral. Os primeiros resultados foram encorajadores e revelaram várias propriedades dos inibidores de CDKs: bloqueio da progressão do ciclo celular seguido pela indução de apoptose, reversibilidade dos efeitos em células sadias, efeitos independentes da proteína Retinoblastoma (proteína supressora de tumores) e interação com proteínas resistentes a drogas [MEI2000].

Além disso, algumas novas aplicações têm sido investigadas. Muitas doenças resultam de uma proliferação descontrolada, mas não tumoral de certas células, como a Arteriosclerose, Restenose pós-angioplastia, Angiogênese tumoral, Glomerulonefrite (proliferação de células glomerulares dos rins) e Psoríase (proliferação de fibroblastos da pele) [MEI2000].

(18)

A Tau é uma proteína associada aos microtúbulos e tem como função estabilizar e promover a montagem dos mesmos. Essa proteína desempenha um papel central na função de células neurais atuando também no controle do crescimento dos dendritos.

A hiperfosforilação da Tau é responsável pela perda da sua capacidade de se ligar aos microtúbulos e promover sua montagem. Em tal situação essa proteína forma agregados, chamados emaranhados neurofibrilares que contém os Filamentos Helicoidais Pareados (PHF) tipicamente associados com o Mal de Alzheimer. Inibidores de CDKs impedem a hiperfosforilação da Tau in-vivo. Eles também parecem proteger neurônios da apoptose, ainda que os mecanismos envolvidos não sejam claros. Esses dados apóiam fortemente o estudo dos inibidores de CDKs como agentes farmacológicos em potencial para o controle de doenças neurodegenerativas [MEI2000]

Atualmente existem inibidores de CDKs, como o Flavopiridol, que se encontram já na fase de testes clínicos para uso farmacológico

3.2. A CDK 5 e a roscovitina

A CDK5 é a única proteína integrante da família das CDKs envolvida no controle de funções neurais. Mesmo sendo largamente expressa em muitos tecidos a CDK5 tem sua atividade restrita aos neurônios. Tal especificidade se deve ao fato de seus ativadores (as proteínas p25, p35 e p39) estarem presentes apenas em neurônios. Estudos demonstraram que o complexo CDK5-p35 desempenha um papel essencial no crescimento dos axônios, na diferenciação e migração dos neurônios, e também para a configuração laminar do córtex cerebral [NIK1996][OHS1996]. Evidências recentes de que este complexo se concentra na extremidade dos axônios em crescimento indicam que o mesmo participa do controle do processo de extensão dos axônios dos neurônios em desenvolvimento [MAC2001]. O aumento na atividade de tal complexo tem sido relacionado com o aparecimento do Mal de Alzheimer onde se verifica um nível de atividade da CDK5 duas vezes maior quando comparados os tecidos cerebrais de doentes com os de indivíduos normais de mesma idade [LEE2000].

Roscovitina [2-(R)-(1-ethyl-2-hydroxy-ethylamino)-6-benzylamino-9-isopropylpurine] é um derivado de purina com um grande poder de inibição para as CDKs tendo valores de IC50 que variam desde 0,16µM para a CDK5 até 100µM para CDK4 e CDK6. A estrutura cristalográfica do complexo CDK2-roscovitina indica que esse inibidor se liga muito fortemente ao sítio de ligação de ATP da CDK2. [AZE1997].

(19)

Figura 3.3: Estrutura plana da molécula de Roscovitina

Dessa forma, como a roscovitina apresentava um grande poder de inibição com relação à CDK5 e também como ela já havia sido cristalizada com a CDK2 apresentando uma forte interação com o sítio de ligação do ATP, foi resolvido que a roscovitina seria o inibidor utilizado para a realização dos procedimentos de dockings com a CDK5.

3.3. Modelagem da CDK5

O primeiro passo para realizar o estudo da CDK5 com a roscovitina seria obter as coordenadas tridimensionais da CDK5. Portanto seria utilizada a modelagem molecular por homologia para se obter um modelo da CDK5 e a partir daí seriam realizados os testes de docking com a roscovitina.

O software usado para realizar a modelagem foi o Modeller, cujo funcionamento já foi descrito anteriormente. Mas a modelagem não foi feita diretamente no Modeller através da edição dos arquivos de entrada necessários para todas as etapas. Para realizar a modelagem foi usado o Parmodel [UCH2003], software que havia sido proposto no relatório anterior e cuja a construção foi concluída. Mais adiante será dada uma descrição detalhada do Parmodel, mas agora só necessita-se saber que este software recebe com entradas através de uma interface WEB os seguintes elementos: um arquivo contendo a seqüência de aminoácidos da proteína alvo, arquivos pdb contendo as coordenadas espaciais dos templates usados na modelagem e a resolução média dos templates.

Após receber as entradas, o Parmodel realiza a modelagem da proteína paralelamente no cluster e após feita a modelagem estes modelos são analisados automaticamente pelo software Procheck, que também está acoplado no Parmodel. Como resultado retorna-se o arquivo pdb e o mapa de Ramachandran do melhor modelo, além de um outro arquivo com os percentuais de qualidade de todos os modelos gerados.

(20)

Mas antes de realizar a execução do Parmodel, era necessário saber quais os templates seriam usados na modelagem. Com foi descrito anteriormente, esta etapa, apesar de também poder ser realizada automaticamente pelo Modeller, envolve alguns critérios, além da porcentagem de identidade entre as seqüências, que podem ser diferentes para cada tipo de proteína. Portanto esta etapa não foi adicionada ao Parmodel e deveria ser realizada pelo usuário antes que pudesse ser feita a modelagem.

Assim, foi usada a busca de templates do próprio Modeller, apesar de existirem inúmeras outras ferramentas para este procedimento. Para isso foi gerado um arquivo no formato FASTA contendo a sequência primária da proteína a ser modelada e um arquivo de controle contendo os comandos necessários para que o MODELLER executasse o processo de busca das melhores estruturas modelo. Os conteúdos dos dois arquivos são mostrados a seguir:

>P1;cdk5 sequence:cdk5:::::::: MQKYEKLEKIGEGTYGTVFKAKNRETHEIVALKRVRLDDDDEGVPSSALREICLLKELKHKNIVRLH DVLHSDKKLTLVFEFCDQDLKKYFDSCNGDLDPEIVKSFLFQLLKGLGFCHSRNVLHRDLKPQN LLINRNGELKLADFGLARAFGIPVRCYSAEVVTLWYRPPDVLFGAKLYSTSIDMWSAGCIFAEL ANAGRPLFPGNDVDDQLKRIFRLLGTPTEEQWPSMTKLPDYKPYPMYPATTSLVNVVPKLNAT GRDLLQNLLKCNPVQRISAEEALQHPYFSDFCPP*

Figura 3.4: Arquivo contendo a seqüência: cdk5.seq

SET SEARCH_RANDOMIZATIONS = 100

SEQUENCE_SEARCH FILE = 'cdk5.seq', ALIGN_CODES = 'cdk5'

Figura 3.5: Arquivo de controle search.top

Após o processo de busca o programa apresenta uma tabela com códigos de estruturas das 20 melhores famílias de estruturas a serem usadas como modelos (templates). Na tabela 3.1 são vistos os 5 melhores resultados.

(21)

# CODE LEN ID %ID SCORE SIGNI 1 1hcl 294 74 59,6 206768 38,8 2 1phk 277 7 27,8 143493 8,4 3 1csn 293 5 22,3 145983 7,7 4 1kobA 353 6 22,6 148426 7,3 5 1apmE 341 2 21,2 148198 6,4

Tabela 3.1: Melhores resultados da busca por modelos (templates)

Nesta tabela está o código (CODE) sob o qual estão depositadas as estruturas no PDB, o número de resíduos de cada estrutura (LEN), o número de resíduos idênticos (ID), a porcentagem de identidade com relação à seqüência da proteína a ser modelada (%ID), o escore atingido na correlação entre as seqüências (SCORE) e a coluna SIGNI que indica quão significante é a estrutura para o processo de modelagem. Valores de SIGNI maiores que 6 indicam estruturas boas para serem utilizadas no processo de modelagem [SAL2001].

Com base nos resultados obtidos na busca por modelos, optou-se por utilizar estruturas da família da 1hcl, pois a mesma apresentou alta porcentagem de identidade (59,6%), o melhor escore (206.768) e o mais alto valor de significância (38,8).

Consultando no PDB o código 1hcl foi visto que se trata da estrutura da proteína CDK2 humana resolvida a uma resolução de 1,8 Å [SCH1995]. Como existem outras estruturas de CDK2 humana depositadas no PDB optou-se por utilizar como padrão um conjunto contendo oito dessas estruturas, todas com resolução superior a 2,2Å as quais se encontram depositadas no PDB com os seguintes códigos: 1hcl, 1aq1, 1ckp, 1dm2, 1e1v, 1e1x, 1hck e 1jsv. As estruturas de códigos 1aq1, 1ckp, 1dm2, 1e1v, 1e1x, 1hck e 1jsv contêm, além da CDK2, as coordenadas atômicas das moléculas de Staurosporina, Purvalanol B, Himenialdisina, NU20, NU60, ATP e U55 respectivamente (Tabela 3.2).

(22)

Cód. PDB Resolução [Å] R-fator Res. ausentes 1hcl 1,80 0,181 37 - 40 1aq1 2,00 0,220 36 - 43 e 149 - 161 1ckp 2,05 0,192 36 - 43 e 153 - 163 1dm2 2,10 0,192 36 - 44 e 149 - 163 1e1v 1,95 0,195 36 - 43 1e1x 1,85 0,213 36 - 43 1hck 1,90 0,185 72 - 75 e 153 - 162 1jsv 1,96 0,185 37 - 46

Tabela 3.2: Lista de estruturas iniciais usadas na modelagem (templates)

Após identificado os templates foi feita a modelagem através do Parmodel e como resultado obteve-se o arquivo pdb da proteína e seu mapa de Ramachandran (figura 3.8).

Figura 3.8: Mapa de Ramachandran da CDK5

No mapa de Ramachandran da figura 3.8 a parte vermelha significa a região mais favorável onde o resíduo pode estar, a parte amarela é a região adicionalmente permitida, a parte amarela claro é a região

(23)

generosamente permitida e a parte branca é a região não permitida. Portanto, foi gerado o seguinte resultado de qualidade estereoquímica:

Região CDK5 Mais Favorável 91,0 % Adicionalmente permitida 7,4 % Generosamente permitida 0,8 % Não permitida 0,8 % Figura 3.9: Qualidade estereoquímica do modelo

Dessa forma pode-se ver que foi obtido um bom modelo, já que mais de 85% dos resíduos apresentam-se em regiões permitidas.

3.4. Docking da CDK5 com roscovitina

Depois de obtido o modelo da estrutura terciária da CDK5 poderia ser feito o docking da CDK5 com a roscovitina. Para este procedimento foi utilizado o software GRAMM. Mas, repetindo o que foi feito na modelagem, não se utilizou o GRAMM diretamente, pois este docking poderia ser realizado de forma muito mais simples através da utilização do DistGramm [UCH2002]. Portanto, através de um interface WEB construída para o DistGramm (que também será detalhada posteriormente) foram submetidos os dados para a realização dos dockings.

Como poderiam ser realizados 15 dockings consecutivos devido a utilização do DistGramm que realiza a paralelização do GRAMM no cluster Beowulf, optou-se por fazer esses dockings modificando os parâmetros de entrada. Assim, foram submetidos através da interface WEB os arquivos no formato pdb da CDK5 e da roscovitina e foram inseridos 15 diferentes configurações para a realização dos dockings.

As 15 diferentes entradas eram todas de docking a alta resolução e após 6 horas 48 minutos e 17 segundos todos os dockings haviam sido realizados (esse tempo foi obtido através da inserção de duas linhas com o comando time no início e fim do código-fonte do DistGramm).

Obteve-se então 15 arquivos no formato pdb e 15 arquivos no formato res como forma de saída do GRAMM. O arquivo no formato res representa cada interação do GRAMM com os ângulos de rotação,

(24)

translação e a energia da conformação obtida. Quanto menor for a energia, mais confiável será a conformação do docking.

Dessa forma, o próximo passo a ser realizado era comparar cada um dos 15 arquivos de saída no formato res e identificar qual deles apresentava o menores valores de energia. Depois de identificado o arquivo com as menores energias, pôde se identificar quais parâmetros de entrada foram responsáveis pelo melhor docking (figura 3.10). O arquivo rpar.gr representado na figura 3.10 indica que esse foi um docking geométrico de alta resolução.

Matching mode (generic/helix) ... mmode=generic

Grid step ... eta=1.7

Repulsion (attraction is always -1) ... ro=30.

Attraction double range (fraction of single range) ... fr=0.

Potential range type (atom_radius, grid_step) ... crang=atom_radius

Projection (blackwhite, gray) ... ... ccti=gray

Representation (all, hydrophobic) ... crep=all

Number of matches to output ... maxm=1000

Angle for rotations, deg (10,12,15,18,20,30, 0-no rot.) .. ai=10

Figura 3.10: Arquivo rpar.gr do melhor docking obtido

Os dados de entrada acima foram responsáveis pela geração do arquivo cdk5-rosc.res. Como já foi dito, este arquivo representa todas as interações do Gramm e suas respectivas energias. Na figura 3.11 está sendo apresentado este arquivo com suas 10 melhores energias.

Através da análise da figura 3.11 pode ser visto que a menor energia obtida foi de -355 kcal/mol. Em um outro arquivo de entrada utilizado pelo GRAMM denominado wlist.gr (que foi descrito em detalhes no primeiro relatório) é definido quais das interações devem estar contidas no arquivo pdb que o GRAMM retorna como saída. Neste caso foi definido que as 10 primeiras interações deveriam estar contidas no arquivo .pdb, portanto este arquivo irá conter as coordenadas espaciais da cdk5 e as coordenadas espaciais da roscovitina em 10 posições diferentes, sendo que a melhor é primeira que possui a menor energia.

(25)

G R A M M v1.03

Rockefeller University, New York, USA Washington University, St.Louis, USA Weizmann Institute, Rehovot, Israel May 3, 2003

______________________________________________________ [molecules]

cdk2 ( cdk5.pdb fragment * 2345 atoms) rosc ( rosco.pdb fragment * 26 atoms)

______________________________________________________ Generic matching

Potential range equal to grid step ( 6.5,-1.0,-0.0) Cumulative projection (all atoms)

Grid step ... 6.8 Grid size ... 16

Energy values are divided by ... 213.8 No.of matches to output ... 1200 Angle interv.for rot.(deg) ... 20

______________________________________________________ No. Energy Rotation Translation

(-) ______________________________________________________ [match] 1 42 5 14 32 6.01 -89.04 -65.71 2 42 138 119 163 6.01 -89.04 -65.71 3 42 150 163 165 6.01 -89.04 -65.71 4 42 164 143 157 6.01 -89.04 -65.71 5 42 144 143 157 6.01 -89.04 -65.71 6 41 131 134 173 6.01 -89.04 -65.71 7 41 20 0 0 6.01 -89.04 -65.71 8 41 332 150 17 6.01 -89.04 -65.71 9 41 352 150 17 6.01 -89.04 -65.71 10 41 49 162 0 -14.39 -89.04 -52.11

Figura 3.11: Arquivo cdk5-rosc.res

Assim foi editado o arquivo .pdb gerado pelo GRAMM deixando apenas as coordenadas da roscovitina com menor energia. O modelo do complexo CDK5-roscovitina apresentou estrutura semelhante à encontrada para a CDK2, formada por dois domínios principais unidos por uma região de ligação, sendo que o sítio onde se liga a molécula de roscovitina se encontra em uma fenda entre os dois domínios.

(26)

A figura 3.12 mostra o diagrama esquemático que representa a estrutura secundária do complexo CDK5-roscovitina, gerado pelo programa ProtGif (EBE2003), onde é visto a molécula de roscovitina corretamente posicionada no sítio de ligação.

Figura 3.12: Estrutura secundária do complexo cdk5-roscovitina

Na figura 3.13 tem-se o potencial eletrostático da superfície do complexo gerado pelo software GRASP [NIC1991] onde se pode ver mais claramente a região da fenda entre os domínios N-terminal e C-terminal da CDK5 e o posicionamento da molécula de roscovitina no bolsão de ligação de ATP.

(27)

Figura 3.13: Potencial eletrostático da superfície do complexo CDK5-roscovitina

Na figura 3.14 pode-se ver mais detalhadamente a roscovotina posicionada exatamente no bolsão de ligação do ATP, já que a CDK2 apresenta este mesmo bolsão onde o ATP se liga. No potencial eletrostático da superfície, as cargas positivas são mostradas em azul, as negativas são mostradas em vermelho e as neutras em branco.

(28)

Figura 3.14: Potencial eletrostático da superfície do sítio de ligação de ATP do complexo CDK5-roscovitina

Portanto foi visto exatamente todos os passos realizados na modelagem e docking da CDK5 com roscovitina.

4.

Docking da Chiquimato Quinase de Mycobacterium tuberculosis (mtCQ) com o

chiquimato

4.1. O Mycobacterium tuberculosis e a via metabólica do ácido chiquímico

A infecção pelo Mycobacterium tuberculosis, agente causador da tuberculose, é a principal causa de morte em humanos devido a um único agente infeccioso. Este microrganismo é quase exclusivamente um parasita humano, e sua transmissão ocorre via aérea. Usualmente causa tuberculose pulmonar, uma infecção dos pulmões, embora seja capaz de infectar outros tecidos ou órgãos do corpo [PEL1996].

Em 1997, 1,87 milhões de pessoas morreram de tuberculose e, segundo o relatório anual da World Health Organization de 2001, estima-se que ocorreram cerca de 8,4 milhões de novos casos de tuberculose no mundo em 1999, o que representa um aumento de cerca de 20% em relação ao ano de 1997 [WHO2001]. Este aumento é devido a ocorrência da tuberculose em pacientes co-infectados com o

(29)

vírus HIV. Outro fator que está relacionado com o aumento de casos de tuberculose é a emergência de cepas resistentes aos antimicrobianos utilizados para o seu tratamento. O abandono do tratamento ou a prescrição de regimes inapropriados para o tratamento da tuberculose resulta na seleção de cepas resistentes aos fármacos de primeira linha utilizados no combate à tuberculose.

Os mecanismos de resistência identificados até o momento são resultantes de mutações pontuais em genes codificadores das proteínas que são os alvos destes agentes anti-tuberculose [BAS1998]. Cepas de M. tuberculosis resistentes às drogas anti-tuberculose de primeira linha têm sido identificadas globalmente. A estimativa anual da tuberculose no Brasil é de 120.000 novos casos. Um aspecto preocupante da situação brasileira é que taxas superiores a 45% de pacientes, previamente tratados, apresentam multi-resistência (definida como resistente à isoniazida e rifampicina) adquirida.

Os mecanismos de resistência aos agentes anti-tuberculose são devido a alterações no DNA cromossomal, portanto estas cepas não estão sujeitas à seleção reversa, e permanecerão causando a falha de tratamentos padrões à tuberculose. Desta forma, a busca de novos alvos torna-se imperiosa.

Dentre as prioridades para o combate à tuberculose, o desenvolvimento de novas drogas para substituírem aquelas comprometidas pela resistência é premente para o desenvolvimento de um tratamento quimioterápico eficaz. O principal objetivo da quimioterapia é atacar alvos peculiares aos microrganismos como, por exemplo, vias metabólicas ausentes no organismo humano. Tal fato, teoricamente, minimizaria o efeito tóxico destas drogas antimicrobianas para a espécie humana. Sob este aspecto, as enzimas da via do ácido chiquímico (Figura 4.1) representam bons exemplos da utilidade de tal abordagem aplicada a constituintes enzimáticos de uma rota biossintética presente em microrganismos e plantas, e inexistente no organismo humano. Desta forma, a tuberculose ou qualquer outra doença causada por um microrganismo poderá, em princípio, ser tratada por inibidores das enzimas da rota do ácido chiquímico que impossibilitarão a produção do ácido corísmico - precursor chave para a biossíntese de PABA (ácido p-aminobenzóico, precursor do tetrahidrofolato), ácido p-hidroxibenzóico (precursor da coenzima Q ou ubiquinona), micobactinas e dos aminoácidos aromáticos essenciais [RAT1982].

(30)

Figura 4.1 – Via metabólica do ácido chiquímico, a partir da eritrose 4-fosfato e fosfoenol-piruvato

até formação do corismato ou ácido corísmico ( Mathews & van Holde, 1990).

4.2. O docking da chiquimato quinase com o chiquimato

Apesar da via metabólica do ácido chiquímico possuir várias enzimas, a chiquimato quinase foi escolhida pelo fato de já ter sido modelada no laboratório de Sistemas Biomoleculares e também estar sendo cristalizada. Desta forma, não necessitaria realizar a modelagem desta enzima e poderia ser feito o docking diretamente.

Assim, foram realizados dockings da chiquimato quinase com o substrato chiquimato (de acordo com a via metabólica da figura 4.1). A escolha do chiquimato foi pelo fato dele ser um substrato da chiquimato quinase, dessa forma de acordo com as ligações da chiquimato quinase com o chiquimato poderia se estudar algum inibidor competitivo com o chiqumato que pudesse se ligar à chiquimato quinase de forma que a via metabólica do ácido chiquímico fosse interrompida.

Novamente foi utilizado o DistGramm para realização dos dockings sendo repetido o mesmo procedimento utilizado no docking da CDK5 com roscovitina. Foram realizados 15 dockings, sendo que após 4 horas 12 minutos e 26 segundos todos já haviam terminado, e então foi escolhido o melhor resultado de acordo com os critérios de energia mínima.

(31)

O potencial eletrostático da superfície molecular da mtCQ complexada com chiquimato foi calculado com o GRASP, indicando uma certa complementaridade de cargas entre o chiquimato e a enzima (Figuras 4.2). No entanto, a maior parte dos resíduos do bolsão de ligação são hidrofóbicos estrutura. Foi observada uma região com alta concentração de cargas positivas em mtCQ. Esta concentração de cargas positivas é devido a presença dos resíduos Arg21, Arg125, Lys128, Arg130, Lys135, Arg142, Arg147, Arg153, Arg160, His161 e Arg165.

Figura 4.2: Potencial eletrostático da superfície molecular da mtCQ

O estudo estrutural da chiquimato quinase de Mycobacterium tuberculosis tem como objetivo a construção de um possível inibidor para esta proteína, ou auxiliar no melhoramento de algum composto guia. Acredita-se que um inibidor para mtCQ seria um antibiótico de largo espectro, pois os padrões de ligações de hidrogênio são mantidos nos demais organismos, como citado acima.

(32)

5. Interfaces e performance do DistGramm e Parmodel

Como havia sido previsto no primeiro relatório enviado à Fapesp, seria realizada a construção de interfaces WEB para o ParModel e para o DistGramm. Desta forma, o usuário poderia realizar modelagens e dockings remotamente e receberia os resultados por e-mail. Neste capitulo será visto o funcionamento das interfaces e a performance na execução dos dois softwares.

5.1. DistGramm

Todas as etapas da fase de criação e funcionamento do DistGramm foram detalhadas no primeiro relatório. Será visto aqui apenas uma nova interface e será feito um comentário com relação à performance do DistGramm.

Dessa forma, foi construída uma interface WEB em HTML (Hypertext Markup Language) e PHP para o DistGramm de forma que facilite a execução do GRAMM pelos pesquisadores do Laboratório de Sistemas Biomoleculares do IBILCE/UNESP e usuários de outros laboratórios, além de diminuir consideravelmente o tempo de execução de vários dockings através da paralelização no cluster Beowulf.

Figura 5.1: Interface WEB do DistGramm

Através da interface apresentada na figura 5.1, o usuário entra primeiramente com seu nome e e-mail. Depois, ele deverá inserir os arquivos no formato pdb da proteína e do ligante aos quais serão

(33)

realizados os procedimentos do docking. Após isso ele poderá alterar os parâmetros dos arquivos rpar.gr, rmol.gr e wlist.gr através da interface WEB. Caso o usuário não tenha experiência com docking, estão presentes na interface três links (em vermelho) com as possíveis configurações destes arquivos. Ao final o usuário deverá clicar em submit e iniciará a execução do DistGramm diretamente no cluster Beowulf. Caso o usuário queira fazer vários dockings, ele deverá submeter os dados várias vezes através da interface e o programa se encarregará de enviar os processos para diferentes nós (computadores), impedindo que mais de um docking seja realizado em um nó enquanto outros nós estão ociosos.

Como já foi visto, o procedimento de docking geralmente leva horas para ser concluído. Portanto seria inviável ao usuário desta plataforma ficar esperando até que o browser retornasse o resultado dos dockings. Assim, foi implementado um sistema no qual ao término do docking, os resultados são enviados diretamente ao e-mail do usuário. Como resultado o sistema retorna o arquivo .pdb com as coordenadas da proteína e do ligante complexados e um arquivo .res com as energias em cada interação.

Com relação à performance, a vantagem do DistGramm está no fato de poder executar até quinze dockings ao mesmo tempo. Caso seja realizado um único docking, o usuário não terá vantagem com relação ao tempo de processamento, mas irá obter outras vantagens: não necessita ter conhecimentos computacionais para instalar o GRAMM, diminui a propensão a erros no momento em que são editados os arquivos de entrada do GRAMM, pode-se realizar o docking a partir de qualquer computador com acesso à Internet e não necessita ter grande conhecimento com relação a técnica de docking.

O DistGramm pode ser acessado através do link:

http://www.biocristalografia.df.ibilce.unesp.br/cluster/distgramm

Devido a motivos de segurança esta interface estará protegida por senha, portanto aqui estão username e senha temporários:

Username: fapesp

Senha: relatorio2

Dessa forma, conclui-se aqui a descrição das modificações realizadas no DistGramm.

5.2. O ParModel

Como já foi visto anteriormente, o ParModel é um programa que realiza a automatização e paralelização do software Modeller. A vantagem do ParModel com relação ao DistGramm, é o fato de poder se realizar uma modelagem com o tempo de processamento 15 vezes menor do que em uma máquina seqüencial. Dessa forma não há a necessidade de se realizar várias modelagens para se obter um ganho de tempo de processamento.

(34)

Para se obter um bom modelo para uma proteína, devem ser realizadas diversas modelagens. Entretanto, ao construir muitos modelos o Modeller demanda de um tempo de execução muito alto (leva cerca de 4 dias para realizar 1000 modelagens em uma máquina com processador de 800MHz de freqüência de clock).

Para minimizar este tempo de processamento, o ParModel realiza a edição de vários arquivos .top com 1/15 do número total de modelos para cada arquivo ( por exemplo, se forem feitas 1500 modelagens, cada arquivo se encarregará de fazer 100 modelos). Após isso cada arquivo é enviado pelo nó mestre aos demais nós do cluster através de um sistema de NFS (Network File System). Após enviados os arquivos de alinhamento e .top, o nó mestre realiza os disparos para a execução dos Modeller remotamente através de comandos rsh (Remote Shell). Conforme cada nó for terminando sua modelagem, o resultado é enviado ao nó mestre. Após todos os nós terem terminado suas modelagens, o nó mestre realiza a análise automática de todos os modelos através do software Procheck e seleciona o melhor modelo.

(35)

Através da interface (figura 5.2) o usuário deverá entrar com o arquivo contendo a seqüência de aminoácidos da proteína alvo e os arquivos no formato pdb dos templates. Além disso, o usuário deverá entrar com o seu e-mail (para que ele possa receber os resultados posteriormente), o número total de modelos que serão construídos e a resolução média dos templates (este parâmetro é usado pelo Procheck para fazer a análise dos modelos). Como resultado o usuário receberá por e-mail o arquivo .pdb do melhor modelo, o seu mapa de Ramachandran e um arquivo contendo todos os modelos gerados e seus percentuais de qualidade.

O ParModel pode ser acessado através do link:

http://www.biocristalografia.df.ibilce.unesp.br/cluster/parmodel

Devido a motivos de segurança esta interface estará protegida por senha, portanto aqui estão username e senha temporários:

Username: fapesp

Senha: relatorio2

6. Atividades extracronograma realizadas

Entre as atividades extracronograma realizadas estão presentes a apresentação de trabalhos em congressos e a criação de outro programa.

6.1. Apresentação em congressos

• “Automatization and Parallelization in the Molecular Modeling Process of Tertiary Structures

of Proteins”, Uchôa,H.B., Camera Jr.,J.C., de Azevedo,W.F, apresentado na XXXII Reunião Anual da

Sociedade Brasileira de Bioquímica, Caxambu-MG, Maio de 2003.

• “Paralelização nos Processos de Modelagem Molecular e Análise de Estruturas Terciárias de

Proteínas”, Uchôa,H.B., de Azevedo,W.F, a ser apresentado na Escola de Computação de Alto

(36)

•

“Computação Paralela Aplicada à Bioinformática” , Uchôa,H.B., de Azevedo,W.F, a ser apresentado na XIV Semana da Computação, IBILCE-UNESP, São José do Rio Preto, Outubro de 2003.

•

“Parallelization in the Molecular Modeling Process of Tertiary Structures of Proteins”, Uchôa,H.B., Camera Jr.,J.C., de Azevedo,W.F, a ser apresentado no XV Congresso de Iniciação Científica da Unesp, Marília, Outubro de 2003

.

6.2. Programa para o alinhamento de seqüências de aminoácidos e proteínas

Um dos problemas clássicos em Bioinformática é o de alinhamento de seqüências de biomoléculas (proteínas ou ácidos nucléicos) a fim de encontrar similaridades, que podem ser locais ou globais. Estas similaridades geralmente ocorrem devido a uma homologia (implicando ancestral comum), o que ajuda no estudo evolutivo das espécies

.

Vários métodos têm sido propostos na literatura para alinhamento de seqüências, inclusive métodos estocásticos como o simulated annealing , Fasta e Blast ,além de métodos bastante simples, mas ineficientes como os algoritmos de força bruta, que testam todas as possibilidades de alinhamento e, de acordo com alguma função de pontuação, decidem qual é a melhor; este último com complexidade, para alinhamentos de duas seqüenciais, igual a O (2 2n ). Isto quer dizer que para n dados de entrada levará um tempo igual a 2 2n para que o alinhamento seja concluído.

Dentre os métodos que oferecem solução exata, um dos melhores é o da programação dinâmica , cuja complexidade é O (n2 ). Neste programa foi implementado o algoritmo de programação dinâmica de Needlema & Wunsch [NEE1970] aplicado ao alinhamento de seqüências de aminoácidos e ácidos nucléicos.

O programa foi implementado através da linguagem C com interface WEB construída em HTML e PHP. Na figura 6.1 pode-se visualizar a interface do programa e na figura 6.2 pode ser visto o resultado do alinhamento de duas seqüências de ácidos nucléicos.

A interface do programa de alinhamento pode ser acessada através do link abaixo: http://www.biocristalografia.df.ibilce.unesp.br/alinha/

(37)

Figura 6.1: Interface do Programa de Alinhamento

(38)

7. Perspectivas de Trabalho para Área de Bioinformática

A Bioinformática é uma ciência muito recente, e nasceu através da união da biologia com a computação. Mais precisamente a Bioinformática pode ser vista como a aplicação de técnicas computacionais para a resolução de problemas biológicos.

Dessa forma, como perspectivas para futuros trabalhos na área de bioinformática existem diversos campos aos quais podem ser aplicados a bioinformática no intuito de facilitar o trabalho dos biólogos. Podem ser citadas as seguintes aplicações:

• Aplicação de computação paralela para a resolução dos mais diversos problemas relativos à análise de proteínas e ácidos nucléicos que demandam de um grande tempo de processamento;

• O emprego de novas estruturas de armazenamento para os bancos de dados de nucleotídeos e proteínas, como, por exemplo, a orientação à objetos, que poderá permitir uma maior organização destes bancos;

• A utilização de XML (Extensible Markup Language) tanto na organização quanto no acesso aos mais diversos tipos de dados relacionados à biologia molecular, principalmente quando estão relacionados à WEB;

• O emprego de Redes Neurais e Teoria da Computação na predição de estruturas secundárias e terciárias de proteínas e ácidos nucléicos.

• O acoplamento e automação de diversos programas utilizados em Biologia Molecular.

Estas são apenas algumas das formas de se utilizar a computação para o auxilio na área de Biologia Molecular. A tendência para o futuro é de que estes ramos de atuação aumentem muito mais.

(39)

8. Conclusão

Concluiu-se dessa forma que o cronograma especificado no projeto inicial foi cumprido. Pode ser visto ainda que a grande abrangência e inter-relação entre os diversos ramos da área de bioinformática permitiram que fosse feito muito além do que foi previsto inicialmente.

Inicialmente foi especificado apenas a paralelização do GRAMM e a realização de dockings. Entretanto, além disso, foi possível fazer a automação e paralelização do Modeller, realizar modelagens e o estudo de estruturas de proteínas, implementar algoritmo de alinhamento para acesso via WEB, criar programa que mede as distâncias entre as pontes de hidrogênio de moléculas de proteínas, desenvolver interfaces WEB para o GRAMM e Modeller, além de outras ferramentas úteis à biologia molecular. Assim pode ser visto que a grande abrangência da Biologia Molecular possibilitou a expansão deste trabalho.

Mas o grande valor deste trabalho talvez esteja na sua aplicabilidade. Isto porque grande parte das ferramentas construídas estão diretamente ligadas ao desenvolvimento de drogas. E como são ferramentas gratuitas, o maior objetivo é o desenvolver drogas a baixo custo e para doenças negligenciadas, como, por exemplo, é o caso da tuberculose.

(40)

9. Referências Bibliográficas

[ALT1997] S. F. Altschul, T. L. Madden, A. A. Schaer, J. Zhang, Z. Zhang, W. Miller, and D. J. Lipman, Gapped BLAST and PSI-BLAST: a new generation of protein database earch programs, Nucleic Acids Res., vol. 25,pp. 3389-3402, 1997.

[AZE1997] Azevedo Jr, W. F.; Leclerc, S.; Meijer, L. Inhibition of cyclin-dependent kinases by purine analogues: crystal structure of human cdk2 complexed with roscovitine. Eur. J. Biochem., v.243, p.518-526, 1997.

[BAS1998]Basso, L.A.; Zheng, R.; Musser, J.M.; Jacobs, W.R.Jr. e Blanchard, J.S. (1998). Mechanisms of isoniazid resistance in Mycobacterium tuberculosis: enzymatic characterization of enoyl reductase mutants identified in isoniazid-resistant clinical isolates. J. Infect. Dis. 178, 769-775.

[BER2000] Bernan, H. M. et al., The Protein Data Bank ,Nucl. Acids Res., v.28, p. 235-242, 2000.

[BOU2003] Bourne P.E., Weissig H., Structural Bioinformatics, Wiley-Liss, pp. 509-524, 2003.

[BRA1998] Branden, C.; Tooze, J. Introduction to protein structure. 2nd ed. New York : Garland, 1998.

[EBE2003] Jorge,G.E., Uchoa,H.B., Câmera,J.C., de Azevedo Jr,W.F.ProtGif: A Web Tool to generate macromolecular graphics for publication and teaching XXXII Reunião Anual da Sociedade Brasileira de Bioquímica e Biologia Molecular, Caxambú, 2003

[HIG2000] Higgins D., Taylor W., Bioinformatics: Sequence, structure and databanks, Oxford, pp. 16-25, 2000

[HUN1995] Hunter, T. Protein kinases and phosphatases: the yin and yang of protein phosphorylation and signaling. Cell, v.80, p.225-236, 1995.

[JOH2001] Johnson, L. N.; Lewis, R. J. Structural basis for control by phosphorylation. Chem. Rev., v.101, p.2209-2242, 2001.

[KAT1992] Katchalski-Katzir, E., Shariv, I., Eisenstein, M., Friesem, A.A., Aflalo, C., Vakser, I.A. (1992). Proc. Natl. Acad. Sci. USA, 89, 2195-2199.

[LAS1998] Laskowski R.A., MacArthur M.W., Smith D.K., Jones D.T., Hutchinson E.G., Morris A.L., Moss D.S., Thornton J.M.,Procheck: Program to check the Stereochemical Quality of Protein Structures, Cambridge, 1998.

(41)

[LEE2000] Lee, M. S. et al. Neurotoxicity induces cleavage of p35 to p25 by calpain. Nature, v.405, p.360-364, 2000.

[MAC2001] Maccioni, R. B. et al. The protein kinase cdk5 structural aspects, roles in neurogenesis and involvement in alzheimer´s pathology. Eur. J. Biochem. , v.268, p.1518-1527, 2001.

[NEE1970] Needleman, SB & Wunsch, CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol., 48:443-453, 1970

[MEI2000] Meijer, L. Cyclin-dependent kinases inhibitors as potential anticancer, antineurodegenerative, antiviral and antiparasitic agents. Drug Resist. Update, v.2, p.83-88, 2000.

[NIC1991] Nicholls, A., Sharp, K. A. and Honig, B. Protein folding and association: insights from the interfacial and thermodynamic properties of hydrocarbons. Proteins 11(4): 281-296, 1991

[NIK1996]Nikolic, M. et al. The cdk5/p35 kinase is essential for neurite outgrowth during neuronal differentiation. Genes Dev., v.10, p.816-825, 1996.

[OHS1996] Ohshima, T. et al. Targeted disruption of the cyclin-dependent kinase 5 gene results in abnormal corticogenesis, neuronal pathology and perinatal death. Proc. Natl. Acad. Sci. U.S.A., v.93, n.20, p.11173-11178, out.1996.

[PEA1998] W. R. Pearson and D. J. Lipman, Improved tools for biological sequence comparison, in Proceedings of the National Academy of Sciences, USA,no. 85, 1988.

[PEL1996] Pelczar M. J. Jr., Chan, E.C.S., Krieg, N. R. Microbiologia – Conceitos e Aplicações, Makron Books, vol. 2, 2ed., 517p., São Paulo, 1996.

[RAT1982] Ratledge, C., Nutrition, growth and metabolism, in: Ratledge, C. and Stanford, J. L. (Eds.), The biology of the mycobacteria, Academic Press, London, Vol 1, pp 185-271.,1982

[SAL2001] Sali A., Sanchez R., Marti-Renom M. A., Jerkovic B., Bradetdinov A., Melo F., Overington J. P., Feyfant E., Modeller: A Program for Protein Structure Modeling ,1 ,2001.

[SAN2000] Sanchez R., Pieper U., Melo F., Marti-Renom M. A., Madhusudhan M.S., Mirkovic N., Sali A., Protein structure modeling for structural genomics, Nature America, pp. 1-5, 2000.

[SAW1997] Sawyer T. K., Peptidomimetic and Nonpeptide Drug Discovery: Impact of Structure-Based Drug Design, Structure-Based Drug Design, pp. 559-620, 1997.

[SCA2002] Scapin G. Structural biology in drug design: selective protein kinase inhibitors. Drug Discov. Today, v.7, n.11, p.601-611, 2002.

(42)

[SCH1995] Schulze-Gahmen, U.; Brandsen, J.; Jones, H.D. Multiple modes of ligand recognition: crystal structures of cyclin-dependent protein kinase 2 in complex with ATP and two inhibitors, Olomoucine and Isopentenyladenine. Proteins, v.22, p.378, 1995.

[UCH2002] Paralelization of a Docking Program in a Cluster Beowulf. Uchôa, H. B.,, Silveira, N. J. F., Camera Jr, J. C Canduri, F. , and de Azevedo, W.F. apresentado no Workshop on Molecular Modeling in Biophysics. Rio de Janeiro (2002).

[UCH2003] Uchoa,H.B., Azevedo,Jr.W.F., Automatization and Parallelization in the molecular modeling process of tertiary structures of proteins, XXXII Reunião Anual da Sociedade Brasileira de Bioquímica e Biologia Molecular, Caxambú, 2003

[VAK1994] Vakser, I.A., Aflalo, C. (1994) Proteins , 20, 320-329

[VAK1995] Vakser, I.A. (1995) Protein Eng., 8, 371-377.

[VAK1996] Vakser, I.A., (1996) Protein Eng., 9, 741-744.

[VAK1997] Vakser, I.A. (1997) Proteins , Suppl.1, 226-230.

[VAK1999] Vakser, I.A., Matar, O.G., Lam, C.F. (1999) Proc. Natl. Acad. Sci. USA, 96, 8477-8482.

[VOE1995] Voet D., Voet J.G., Biochemistry, John Wiley & Sons, pp., 1995.

[WHO2001] World Health Organization. Global Tuberculosis Control. WHO Report. Geneva, Switzerland, WHO/CDS/TB/2001.287, 2001.