Análise da freq üência de contatos entre os aminoácidos de complexos protéicos do PDB e potencial estat´ıstico

b´asico de complexos

5.1.6 Análise da freq üência de contatos entre os aminoácidos de complexos protéicos do PDB e potencial estat´ıstico

Diferentes análises computacional-estat´ısticas podem ser feitas em cima do PDB (60, 133). Iniciaremos focando a freqüência de contato entre aminoácidos de prote´ınas envolvidas em complexos moleculares em função de suas distâncias de separação, porém, trabalhando com flexibilidade suficiente para acomodar várias outras análises visto ser esta determinação um aspecto cr´ıtico da presente proposta.

Para que possamos analisar a freqüência de contato entre os res´ıduos envolvidos nas interações inter-protéicas, é necessária a obtenção de algumas informações contidas no Protein

Data Bank(PDB) como, os campos SEQRES, que contém a relação de res´ıduos de aminoácidos (seqüência primária da prote´ına), e no caso de complexos, separados por cadeias; e ATOM, que contém informações a respeito da estrutura terciária da prote´ına, ou quaternária no caso de complexos. Neste campo estão presentes dados como as coordenadas X, Y e Z de cada átomo, quais átomos pertencem a um determinado res´ıduo, posição do res´ıduo na cadeia e outros.

Além de obter tais informações, é preciso filtrá-las, controlar eventuais anormalidades, e analisá-las posteriormente. Tais análises consistem de cinco passos descritos a seguir:

1. Com o aux´ılio de ferramentas computacionais desenvolvidas in house, consultar e ob- ter estruturas de interesse (complexos) contidas no PDB, e posteriormente armazená-las como arquivos (pdb) em um diretório local, criando um pequeno banco de dados próprio. 2. Desenvolvimento de um algoritmo capaz de verificar a consistência das informações contidas nos arquivos pdb locais, como, por exemplo, a seqüência de aminoácidos da cadeia primária e o número de átomos para cada aminoácido da seqüência primária, em seguida validar tais informações com os dados presentes na estrutura tridimensional, criando re- latórios destas, e propor, se necessário, correções.

3. Desenvolvimento de ferramentas que farão a análise da freqüência de contatos entre os res´ıduos envolvidos nas interações inter-prote´ınas, utilizando metodologias para o de- senvolvimento de software, como “orientação a objetos”, UML, linguagens portáveis e outras tecnologias (172, 173).

Para que tais análises sejam feitas, iniciamos calculando a distância de separação entre os res´ıduos, de cadeias distintas, que formam o complexo protéico. O cálculo é realizado da seguinte forma:

de um determinado res´ıduo de aminoácido para posteriormente calcular o centro geométrico deste res´ıduo. Este processamento é realizado para todos os res´ıduos que constituem a prote´ına.

b. De posse de todos os átomos e posições nos eixos X, Y e Z de cada res´ıduo, calcula- se o centro geométrico deste.

c. Calcula-se a distância (em ˚Angström) entre o centro geométrico de dois aminoácidos que estão em cadeias distintas.

4. Armazenamento em um sistema gerenciador de banco de dados relacional local open

source, como o PostgreSQL 8.3, das estruturas obtidas a partir da pesquisa feita no PDB e a validação das mesmas, bem como relatório inicial com poss´ıveis erros e avisos ao usuário, potenciais estat´ısticos (distância entre os res´ıduos), e outros. É poss´ıvel exportar as estruturas de complexos protéicos presentes no nosso banco de dados, em arquivos texto no mesmo formato que o arquivo PDB. Esta funcionalidade permite que as estruturas armazenadas no nosso banco de dados possam ser utilizadas por outras ferramentas que necessitam (para os dados de entrada) de uma estrutura semelhante às providas pelos arquivos PDB, ou, tais ferramentas podem obter os dados diretamente do banco, através de conexões com o mesmo.

5.2 Infra-estrutura computacional

A infra-estrutura computacional necessária para prover nossas ferramentas na web foi criada utilizando programas livres. Além dos serviços descritos nesta seção, utilizamos em conjunto com os portais, alguns programas auxiliares, os quais são descritos no Apêndice C. Todos os serviços, ferramentas e programas estão configurados no sistema operacional17 Linux, padrão de distribuição Debian18 e Kernel19 na versão 2.6.31-20. A seguir iremos apresentar os serviços configurados no servidor (banco de dados e serviços web) e as linguagens de desenvol- vimento utilizadas.

1. Banco de Dados: Utilizamos como sistema gerenciador de banco de dados o PostgreSQL 8.3 (174), por ser vers´atil, robusto, multiplataforma e gratuito, al´em de suportar um vasto

17_{Sistema operacional ´e um conjunto de programas desenvolvidos para o gerenciamento de toda parte f´ısica}

(hardware) do computador. Algumas funções do sistema operacional são: gerenciamento de memória, gerencia- mento de disco, divisão do tempo de processamento entre os vários processos que são executados (escalonamento de processos), entre outros.

18_{Veja o endereço http://www.debian.org/ para mais informações sobre a distribuição Debian.}

Informações sobre as distribuições linux podem ser vistas em http://www.linux.org/.

19_{Escrito em linguagem C e em linguagem Assembly, kernel ´e um conjunto de programas que constitue o n´ucleo}

conjunto de dados e possuir um rápido e eficiente processo de cópia de segurança (bac-

kup) e recuperação de dados previamente salvos (restore) do banco. A ferramenta gráfica escolhida para o gerenciamento do banco de dados foi o pgAmin III v.1.8.4 (175). Esta é uma ferramenta gráfica que auxilia no gerenciamento e desenvolvimento do banco de dados, caracterizando como um (front-end) para o desenvolvedor ou usuário do sistema. Assim, torna-se eficiente a manipulação das estruturas de dados, como a criação de tabe- las, chave primária e estrangeira, definição de tipos de dados, etc., presentes no banco de dados.

A modelagem do banco é totalmente flex´ıvel podendo ser modificada a qualquer momento de acordo com a demanda e organização dos dados. Após uma criteriosa análise do pro- blema (interação prote´ına-prote´ına, propriedades eletrostáticas de aminoácidos, prote´ınas e complexos, potenciais estat´ısticos e outros) e compreensão de como as informações são organizadas nos arquivos no formato PDB (estrutura SEQRES, ATOM, SSBOND, divisão em cadeias, etc.), bem como as diferenças entre as informações de estruturas de prote´ınas determinadas por cristalografia de raios X e ressonância magnética nuclear (vários modelos para uma mesma prote´ına), o banco de dados foi modelado para prover a organização e relacionamento entre as informações nele contidas, proporcionando desta maneira uma corretada adaptação do mesmo de acordo com as necessidades encontradas, podendo ser estendido no futuro, caso necessário. Tal modelagem permite, além do correto armazenamento das informações, a correta recuperação dos dados, como, por exemplo, a obtenção das mesmas informações contidas nos arquivos PDB além da possibilidade da aplicação de filtros, através de comandos em linguagem SQL. Por exemplo, é poss´ıvel recuperar um determinado modelo espec´ıfico de uma estrutura de prote´ına resolvida por ressonância magnética nuclear que, pelo uso desta técnica, geralmente possui vários modelos para a representação da sua estrutura tridimensional. A Figura 7 exibe o modelo relacional do banco de dados dispon´ıvel no servidor http://glu.fcfrp.usp.br. O modelo foi desenvolvido para permitir que informações a respeito dos potenciais estat´ısticos e algumas propriedades eletrostáticas de prote´ınas (pré-processadas) sejam armazenadas, visando minimizar o custo computacional em futuras análises.

2. Servidor web: Estamos utilizando o Apache 2.0 (176) para servidor web e como servidor de aplicações, para classes Java e páginas JSP, o Tomcat 5.5 (177). Os serviços estão instalados e configurados em um computador do grupo em caráter experimental, onde as diversas funções dos portais são submetidas a um conjunto de testes com o propósito de identificar falhas no sistema. A medida que as tarefas vão sendo executadas e os testes conclu´ıdos, o serviço é disponibilizado no servidor do laboratório (http://glu. fcfrp.usp.br). A manutenção destes serviços continuará sob nossa responsabilidade. 3. Portais web: Os portais estão sendo desenvolvidos utilizando tecnologia Java 6 (SDK 1.6) e JSP (2.0). Em conjunto, para maximizar a flexibilidade no desenvolvimento, utilizou-se Python (2.6) (178) e gnuplot (179), ambos dispon´ıveis por padrão em sistemas Linux. Ao acessar os portais, o usuário encontrará um conjunto de análises, que poderão ser requisitas, relacionadas ao estudo de propriedades eletrostáticas em prote´ınas e potenciais estat´ısticos, tais como:

• Verificar a curva de titulação e capacitância de uma prote´ına em vários n´ıveis de predição;

• Visualizar a titulação e capacitância ideais de aminoácidos isolados; • Cálculo do segundo coeficiente cruzado de virial em função do pH;

• Cálculo da variação da energia livre eletrostática de complexação, em função da distância de separação entre duas prote´ınas escolhidas pelo usuário;

• Busca por freq¨uˆencia de contatos;

• Análise das freqüências de contato entre pares de aminoácidos que formam o complexo protéico.

Estas e outras ferramentas computacionais desenvolvidas para análise de prote´ınas serão melhor descritas no próximo cap´ıtulo - Resultados.

6 FERRAMENTAS

COMPUTACIONAIS

No documento Análises de propriedades eletrostáticas e estruturais de complexos de proteínas para... (páginas 73-78)