• Nenhum resultado encontrado

An´alise da freq ¨uˆencia de contatos entre os amino´acidos de complexos prot´eicos do PDB e potencial estat´ıstico

b´asico de complexos

5.1.6 An´alise da freq ¨uˆencia de contatos entre os amino´acidos de complexos prot´eicos do PDB e potencial estat´ıstico

Diferentes an´alises computacional-estat´ısticas podem ser feitas em cima do PDB (60, 133). Iniciaremos focando a freq¨uˆencia de contato entre amino´acidos de prote´ınas envolvidas em complexos moleculares em func¸˜ao de suas distˆancias de separac¸˜ao, por´em, trabalhando com flexibilidade suficiente para acomodar v´arias outras an´alises visto ser esta determinac¸˜ao um aspecto cr´ıtico da presente proposta.

Para que possamos analisar a freq¨uˆencia de contato entre os res´ıduos envolvidos nas interac¸˜oes inter-prot´eicas, ´e necess´aria a obtenc¸˜ao de algumas informac¸˜oes contidas no Protein

Data Bank(PDB) como, os campos SEQRES, que cont´em a relac¸˜ao de res´ıduos de amino´acidos (seq¨uˆencia prim´aria da prote´ına), e no caso de complexos, separados por cadeias; e ATOM, que cont´em informac¸˜oes a respeito da estrutura terci´aria da prote´ına, ou quatern´aria no caso de complexos. Neste campo est˜ao presentes dados como as coordenadas X, Y e Z de cada ´atomo, quais ´atomos pertencem a um determinado res´ıduo, posic¸˜ao do res´ıduo na cadeia e outros.

Al´em de obter tais informac¸˜oes, ´e preciso filtr´a-las, controlar eventuais anormalidades, e analis´a-las posteriormente. Tais an´alises consistem de cinco passos descritos a seguir:

1. Com o aux´ılio de ferramentas computacionais desenvolvidas in house, consultar e ob- ter estruturas de interesse (complexos) contidas no PDB, e posteriormente armazen´a-las como arquivos (pdb) em um diret´orio local, criando um pequeno banco de dados pr´oprio. 2. Desenvolvimento de um algoritmo capaz de verificar a consistˆencia das informac¸˜oes con- tidas nos arquivos pdb locais, como, por exemplo, a seq¨uˆencia de amino´acidos da cadeia prim´aria e o n´umero de ´atomos para cada amino´acido da seq¨uˆencia prim´aria, em seguida validar tais informac¸˜oes com os dados presentes na estrutura tridimensional, criando re- lat´orios destas, e propor, se necess´ario, correc¸˜oes.

3. Desenvolvimento de ferramentas que far˜ao a an´alise da freq¨uˆencia de contatos entre os res´ıduos envolvidos nas interac¸˜oes inter-prote´ınas, utilizando metodologias para o de- senvolvimento de software, como “orientac¸˜ao a objetos”, UML, linguagens port´aveis e outras tecnologias (172, 173).

Para que tais an´alises sejam feitas, iniciamos calculando a distˆancia de separac¸˜ao entre os res´ıduos, de cadeias distintas, que formam o complexo prot´eico. O c´alculo ´e realizado da seguinte forma:

de um determinado res´ıduo de amino´acido para posteriormente calcular o centro geom´etrico deste res´ıduo. Este processamento ´e realizado para todos os res´ıduos que constituem a prote´ına.

b. De posse de todos os ´atomos e posic¸˜oes nos eixos X, Y e Z de cada res´ıduo, calcula- se o centro geom´etrico deste.

c. Calcula-se a distˆancia (em ˚Angstr¨om) entre o centro geom´etrico de dois amino´acidos que est˜ao em cadeias distintas.

4. Armazenamento em um sistema gerenciador de banco de dados relacional local open

source, como o PostgreSQL 8.3, das estruturas obtidas a partir da pesquisa feita no PDB e a validac¸˜ao das mesmas, bem como relat´orio inicial com poss´ıveis erros e avisos ao usu´ario, potenciais estat´ısticos (distˆancia entre os res´ıduos), e outros. ´E poss´ıvel exportar as estruturas de complexos prot´eicos presentes no nosso banco de dados, em arquivos texto no mesmo formato que o arquivo PDB. Esta funcionalidade permite que as estrutu- ras armazenadas no nosso banco de dados possam ser utilizadas por outras ferramentas que necessitam (para os dados de entrada) de uma estrutura semelhante `as providas pelos arquivos PDB, ou, tais ferramentas podem obter os dados diretamente do banco, atrav´es de conex˜oes com o mesmo.

5.2

Infra-estrutura computacional

A infra-estrutura computacional necess´aria para prover nossas ferramentas na web foi criada utilizando programas livres. Al´em dos servic¸os descritos nesta sec¸˜ao, utilizamos em conjunto com os portais, alguns programas auxiliares, os quais s˜ao descritos no Apˆendice C. Todos os servic¸os, ferramentas e programas est˜ao configurados no sistema operacional17 Linux, padr˜ao de distribuic¸˜ao Debian18 e Kernel19 na vers˜ao 2.6.31-20. A seguir iremos apresentar os servic¸os configurados no servidor (banco de dados e servic¸os web) e as linguagens de desenvol- vimento utilizadas.

1. Banco de Dados: Utilizamos como sistema gerenciador de banco de dados o PostgreSQL 8.3 (174), por ser vers´atil, robusto, multiplataforma e gratuito, al´em de suportar um vasto

17Sistema operacional ´e um conjunto de programas desenvolvidos para o gerenciamento de toda parte f´ısica

(hardware) do computador. Algumas func¸˜oes do sistema operacional s˜ao: gerenciamento de mem´oria, gerencia- mento de disco, divis˜ao do tempo de processamento entre os v´arios processos que s˜ao executados (escalonamento de processos), entre outros.

18Veja o enderec¸o http://www.debian.org/ para mais informac¸˜oes sobre a distribuic¸˜ao Debian.

Informac¸˜oes sobre as distribuic¸˜oes linux podem ser vistas em http://www.linux.org/.

19Escrito em linguagem C e em linguagem Assembly, kernel ´e um conjunto de programas que constitue o n´ucleo

conjunto de dados e possuir um r´apido e eficiente processo de c´opia de seguranc¸a (bac-

kup) e recuperac¸˜ao de dados previamente salvos (restore) do banco. A ferramenta gr´afica escolhida para o gerenciamento do banco de dados foi o pgAmin III v.1.8.4 (175). Esta ´e uma ferramenta gr´afica que auxilia no gerenciamento e desenvolvimento do banco de dados, caracterizando como um (front-end) para o desenvolvedor ou usu´ario do sistema. Assim, torna-se eficiente a manipulac¸˜ao das estruturas de dados, como a criac¸˜ao de tabe- las, chave prim´aria e estrangeira, definic¸˜ao de tipos de dados, etc., presentes no banco de dados.

A modelagem do banco ´e totalmente flex´ıvel podendo ser modificada a qualquer momento de acordo com a demanda e organizac¸˜ao dos dados. Ap´os uma criteriosa an´alise do pro- blema (interac¸˜ao prote´ına-prote´ına, propriedades eletrost´aticas de amino´acidos, prote´ınas e complexos, potenciais estat´ısticos e outros) e compreens˜ao de como as informac¸˜oes s˜ao organizadas nos arquivos no formato PDB (estrutura SEQRES, ATOM, SSBOND, divis˜ao em cadeias, etc.), bem como as diferenc¸as entre as informac¸˜oes de estruturas de prote´ınas determinadas por cristalografia de raios X e ressonˆancia magn´etica nuclear (v´arios mode- los para uma mesma prote´ına), o banco de dados foi modelado para prover a organizac¸˜ao e relacionamento entre as informac¸˜oes nele contidas, proporcionando desta maneira uma corretada adaptac¸˜ao do mesmo de acordo com as necessidades encontradas, podendo ser estendido no futuro, caso necess´ario. Tal modelagem permite, al´em do correto armazena- mento das informac¸˜oes, a correta recuperac¸˜ao dos dados, como, por exemplo, a obtenc¸˜ao das mesmas informac¸˜oes contidas nos arquivos PDB al´em da possibilidade da aplicac¸˜ao de filtros, atrav´es de comandos em linguagem SQL. Por exemplo, ´e poss´ıvel recuperar um determinado modelo espec´ıfico de uma estrutura de prote´ına resolvida por ressonˆancia magn´etica nuclear que, pelo uso desta t´ecnica, geralmente possui v´arios modelos para a representac¸˜ao da sua estrutura tridimensional. A Figura 7 exibe o modelo relacional do banco de dados dispon´ıvel no servidor http://glu.fcfrp.usp.br. O modelo foi desenvolvido para permitir que informac¸˜oes a respeito dos potenciais estat´ısticos e algumas propriedades eletrost´aticas de prote´ınas (pr´e-processadas) sejam armazenadas, visando minimizar o custo computacional em futuras an´alises.

2. Servidor web: Estamos utilizando o Apache 2.0 (176) para servidor web e como servidor de aplicac¸˜oes, para classes Java e p´aginas JSP, o Tomcat 5.5 (177). Os servic¸os est˜ao instalados e configurados em um computador do grupo em car´ater experimental, onde as diversas func¸˜oes dos portais s˜ao submetidas a um conjunto de testes com o prop´osito de identificar falhas no sistema. A medida que as tarefas v˜ao sendo executadas e os testes conclu´ıdos, o servic¸o ´e disponibilizado no servidor do laborat´orio (http://glu. fcfrp.usp.br). A manutenc¸˜ao destes servic¸os continuar´a sob nossa responsabilidade. 3. Portais web: Os portais est˜ao sendo desenvolvidos utilizando tecnologia Java 6 (SDK 1.6) e JSP (2.0). Em conjunto, para maximizar a flexibilidade no desenvolvimento, utilizou-se Python (2.6) (178) e gnuplot (179), ambos dispon´ıveis por padr˜ao em sistemas Linux. Ao acessar os portais, o usu´ario encontrar´a um conjunto de an´alises, que poder˜ao ser requisitas, relacionadas ao estudo de propriedades eletrost´aticas em prote´ınas e potenciais estat´ısticos, tais como:

• Verificar a curva de titulac¸˜ao e capacitˆancia de uma prote´ına em v´arios n´ıveis de predic¸˜ao;

• Visualizar a titulac¸˜ao e capacitˆancia ideais de amino´acidos isolados; • C´alculo do segundo coeficiente cruzado de virial em func¸˜ao do pH;

• C´alculo da variac¸˜ao da energia livre eletrost´atica de complexac¸˜ao, em func¸˜ao da distˆancia de separac¸˜ao entre duas prote´ınas escolhidas pelo usu´ario;

• Busca por freq¨uˆencia de contatos;

• An´alise das freq¨uˆencias de contato entre pares de amino´acidos que formam o complexo prot´eico.

Estas e outras ferramentas computacionais desenvolvidas para an´alise de prote´ınas ser˜ao melhor descritas no pr´oximo cap´ıtulo - Resultados.

6

FERRAMENTAS

COMPUTACIONAIS