• Nenhum resultado encontrado

Como resultado do trabalho desenvolvido nesta tese, obtivemos dois resultados principais. O primeiro resultado foi a validação de uma metodologia genérica para a predição de interação proteína-proteína, descrito no capítulo de metodologia. O segundo resultado foi obtido com a aplicação desta metodologia validada para a predição das redes de interação para nove linhagens de Corynebacterium pseudotuberculosis biovar ovis.

No primeiro trabalho, objetivamos identificar e validar métricas, extraídas dos valores dos alinhamentos feito pelo BLASTp, que pudessem ser usadas para diferenciar interações falsas e positivas. Para isto, usamos a base de dados pública DIP, contendo interações experimentais e curadas, como padrão ouro. Usamos também as bases de dados públicas (pDB) String, Intact e Psibase para mapearmos as interações. Assim, usando o programa BLASTp e as sequências de aminoácidos cada interação em formato FASTA, fizemos o alinhamento recíproco, mapeamos e transferimos as interações encontradas nas pDB para DIP. Sendo DIP nosso padrão ouro, contabilizamos estatisticamente as interações falsas e verdadeiras. Como DIP contém somente interações verdadeiras, o conjunto de interações negativas foi criado com identificadores da mesma base de dados, contendo em proporção de cinco vezes a quantidade de interações positivas, criadas aleatoriamente.

Para isto, geramos dois conjuntos de dados distintos para serem avaliados, ambos contendo os alinhamentos recíprocos entre as pDB e DIP, gerados pelo BLASTp. No primeiro conjunto de alinhamentos, somente o primeiro alinhamento do BLASTp foi considerado, justificado pela maior probabilidade de ser uma proteína homóloga. No segundo conjunto de alinhamentos, foram considerados os 20 primeiros alinhamentos do BLASTp, visando assim, identificar outros alinhamentos entre proteínas homólogas. Para ambos conjuntos de dados, os valores dos alinhamentos retornados pelo BLASTp foram recuperados, sendo eles o score, e-value, bitscore, similaridade, identidade e cobertura. Adicionalmente, geramos subconjuntos com combinações dos valores obtidos dos alinhamentos feitos com o BLASTp. Assim, no total foram gerados 42 subconjuntos distintos de predições a serem avaliados (dois conjuntos de dados com sete métricas para três pDB).

Cada subconjunto ou combinação destes foram submetidos a avaliação com a curva Receiver Operaing Characteristic (ROC), visando identificar a métrica com maior Area Under Curve (AUC) que pudesse melhor diferenciar as interações verdadeiras das falsas. Assim, nós identificamos, para cada pDB, os valores retornados do alinhamento feito pelo BLASTp que melhor contribuem para as predições.

166

A combinação dos valores de identidade e cobertura extraídos dos alinhamentos compuseram a melhor métrica, correspondendo a um AUC de 0,96 para pDB individual e um AUC de 0,93 para a combinação de pDB. O ponto de corte de 0,70 para a métrica identidade vezes cobertura, corresponde à especificidade de 0,95 e sensibilidade de 0,90, demostrando que nosso método prediz eficientemente as interações proteína-proteína.

Adicionalmente, em vez de usarmos somente o primeiro alinhamento do BLASTp, nós usamos os 20 primeiros alinhamentos, aumentando a quantidade de pares de interação preditos e a cobertura na rede de interação. Consequentemente, aumentamos também exponencialmente a quantidade de alinhamentos e pares de interação para serem manipulados e tratados. Ao usar mais que um alinhamento do BLASTp, gera-se redundância de pares de interação preditos entre as pDB e entre as proteínas homólogas contidas dentre os 20 alinhamentos do BLASTp. Sob o ponto de vista tecnológico esta quantidade de dados não útil pode gerar problemas, exigindo computadores mais potentes ou algoritmo mais eficiente para o processamento.

No segundo trabalho, aplicamos esta metodologia com as métricas validadas para gerar as redes de interação para nove linhagens do biovar ovis de C. pseudotuverculosis (Cp). Assim, seguindo a metodologia, executamos o alinhamento recíproco entre as nove linhagens de Cp contra as pDBs, identificamos os pares de interação e usamos os valores de identidade vezes cobertura extraídos dos alinhamentos do BLASTP para calcular a métrica e gerar as redes de interações.

Como resultado, foram preditos aproximadamente 16.000 pares de interação para cada linhagem de Cp, sendo ~99% mapeado do gênero Corynebacterium, ou seja, de um organismo filogeneticamente próximo, aumentando biologicamente a probabilidade que as interações preditas realmente ocorram em Cp. Destes pares de interação preditos, 15.495 são conservados entre as nove linhages do biovar ovis de Cp. Este conjunto de interações conservadas foi usado para fazer análise dos clusteres e identificação de proteínas essenciais.

Antes, porém, nos preocupamos em validar as redes de interação preditas e verificar se possuíam características de redes biológicas. Submetemos então as redes de interação preditas para validação quanto a menor caminho (Shortest Path) e verificar se o grau de interação seguia uma distribuição livre de escala (Scale Free) com aproximação à lei de poderes (Power Law). Ambas análises topológicas sugerem que todas as redes de interação preditas possuem característica pertencentes às redes biológicas.

167

Adicionalmente, foi verificado se as redes de interação preditas tinham alguma chance de serem geradas aleatoriamente. Assim, submetemos as redes de interação geradas ao teste de distribuição normal denominado Shapiro-Wilk teste, qual descartou definitivamente a probabilidade que as redes de interação tivessem uma distribuição normal, obtendo um p- value < 2.2e-16 (Shapiro e Wilk, 1965). Ainda, comparamos as redes de interação preditas contra redes de interação geradas aleatoriamente. Nesta comparação, os valores do Coeficiente de Clusterização, Correlção e R2 obtidos são extremamente diferentes entre os dois tipos de redes, sugerindo que as redes preditas não foram formadas por interações expúrias ou aleatórias, possuindo um viés biológico, possivelmente devido à pressão evolucionária exercida sobre estas interações no organismo. Em tempo, o alto valor do Coeficiente de Clusterização sugere uma auto organização nas célula de Cp motivada pelas interações (Galeota et al., 2015).

Seguros de estarmos analisando redes de interação biológicas, procedemos com a análise dos clusteres de proteínas e das proteínas essenciais. Dentre os clustes encontrados, selecionamos cinco com maior quantidade de proteínas para serem analisados com suporte da literatura, sendo eles principalmente formados por proteínas Ribossomais e de RNA Polimerase, Sistema de transporte de Oligopeptídeos, Biosintese de Cobalamina, Aquisição de Ferro e regulação intracelular e, Divisão celular e biossíntese da parede celular.

Ao analisar os clusters, o viés biológico exercido sobre estes e as interações, é identificado e apoiado pela descrição na literatura e caracterização por métodos experimentais, mesmo que em outros organismos filogeneticamente próximos. Este conhecimento a nível de biologia de sistemas, obtidos na literatura, pode então ser transferido, via rede de interação, para Cp, possibilitanto melhor entendimento do organismo. Da mesma forma, a falta de informação na literatura sobre algumas interações, faz das redes de interação proteína- proteína uma importante ferramenta para melhor analisar e entender o comportamento celular de Cp, permitindo levantar novas hipóteses e direcionar novos experimentos em laboratório, visando testar a drogabilidade e essencialidade destas proteínas e interações.

Entre as 15.495 interações conservadas nas nove redes de interação preditas para Cp, considerando principalmente o grau de interação, 181 proteínas essenciais foram identificadas (Khuri e Wuchty, 2015); participando principalmente no metabolismo de carbono, envelope celular e síntese da parede celular, biossíntese de nucleotídeos, enovelamente, translocação, formação do ribossomo, fatores de transcrição, síntese de tRNA, metabolismo de RNA e, via metabólica respiratória. Dentre estas proteínas essencias, somente a DNA repair (RecN) não foi identificada como essencial na base de dados DEG.

168

Enquanto a maioria das proteínas essenciais possuem mais proteínas em mais de 20 organismos de DEG, outras três proteínas essenciais em Cp tiveram homologia com apenas um organismo de DEG: Catalase (KatA), Endonuclease III (Nth) and Trigger factor Tig (Tig). Isto pode ser explicado pelo fato de que a essencialidade nem sempre é conservada entre as espécies (Caufield et al., 2015). Dentre as proteínas essenciais 41 não tiveram homologia contra seus hospedeiros, sendo boas candidatas para uso em diagnóstico ou alvos para drogas.

Além da identificação de clusteres e proteínas essenciais, as redes de interação podem ser usadas em conjunto com outras técnicas experimentais para auxiliar na interpretação dos resultados. Assim, em posse da rede de interação proteína-proteína gerada para a linhagem 1002 de C. pseudotuberculosis, foram identificadas as interações entre as proteínas com baixa e alta expressão, bem como as proteínas exclusivamente expressas, quando submetidas a stresse nitrosativo. A visão sistêmica das proteínas envolvidas na condição de estresse, propiciada pela rede de interação, auxiliou na interpretação dos resultados do experimento de proteômica comparativa.

Ao analisar as redes de interação com mais atenção aos detalhes e considerando os resultados obtidos durante o desenvolvimento desta tese, é perceptível que muitos outros trabalhos derivados ou somados às redes de interação poderão ser desenvolvidos, sejam eles de natureza experimental ou computacional.

169

Documentos relacionados