• Nenhum resultado encontrado

4 MATERIAL E METODOS

5.2 H PYLORI

5.2.1 Check-up Estatísticos das Regressões Lineares

Uma vez calculadas as variáveis independentes, os descritores que apresentaram alta intercorrelação e consequentemente baixa influência na atividade biológica dos modelos, foram removidos e formadas três matrizes. Foi aplicado um algoritmo personalizado chamado OPS (ordem dos preditores ordenados) para selecionar as variáveis mais significativas entre as amostras para construir os modelos preditivos, reduzindo mais uma vez o número de variáveis independentes. Em trabalhos publicados anteriormente, o OPS foi usado e ainda continua sendo utilizado com sucesso para obter novos modelos QSAR (COSTA; CARVALHO; FERREIRA, 2019; DOS SANTOS et al., 2018; KAUSAR; FALCAO, 2018). Após a seleção das variáveis

mais relevantes, aproximadamente 30% das amostras foram separadas para validação externa dos três modelos.

Dentre os modelos de regressão existentes na literatura para a concepção de um bom modelo matemático preditivo, o método MLR trata bem um pequeno número de descritores moleculares e tem sido destacado frequentemente em estudos envolvendo QSAR por apresentar um bom poder de previsão (CANNALIRE et al., 2018; RAJATHEI; PARTHASARATHY; SELVARAJ, 2018). Os três modelos lineares foram criados usando o método MLR. Os modelos tiveram bom desempenho na previsão da atividade biológica, mesmo que o modelo QSAR-2D não tenha se saído tão bem quanto os outros dois modelos construídos (QSAR-3D e QSAR Híbrido) (figura 23). Os três modelos matemáticos construídos estão dentro dos parâmetros estatísticos (tabela 3). De acordo com os dados disponíveis na literatura, os valores de Q² e R² devem ser maiores que 0.6 para ser classificado como um modelo satisfatório.

Figura 23 - Os modelos de QSAR construídos por MLR previram valores de compostos de inibição (Y) vs

inibidores experimentais de pKi DHQase II (X). O conjunto de treinamento está em vermelho e o conjunto de teste em azul.

Fonte: Elaborado pelo autor.

Tabela 3 – Métricas dos respectivos modelos lineares.

Parâmetros Estatísticos R² Q² Q²ext

QSAR-2D 0.69 0.64 0.62

QSAR-3D 0.77 0.69 0.66

QSAR Híbrido 0.83 0.78 0.72

Um modelo QSAR é considerado bom quando suas validações externas e internas são realistas e aplicáveis ao planejamento de novos medicamentos. O Leave-N-Out (LNO) é uma das opções de validação interna usadas com frequência nos estudos de QSAR, pois pode avaliar efetivamente a robustez do modelo obtido. Este método consiste em excluir uma amostra

de cada vez da amostra de treinamento, criando um modelo em cada iteração sem as amostras removidas e prevendo a atividade biológica (BAUMANN; BAUMANN, 2014). Seguindo esse conceito, podemos observar na figura 24 pequenas flutuações no valor de Q²LNO quando até 13

amostras são coletadas durante o processo de validação cruzada do modelo QSAR-2D, o modelo QSAR-3D resistiu até a remoção de 7 amostras e no modelo QSAR Híbrido sustentou a remoção de 17 amostras.

Figura 24 – A validação LNO aplicada aos respectivos modelos lineares.

Fonte: Elaborado pelo autor.

O y-randomization por sua vez, visa detectar uma correlação potencial entre as variáveis dependentes e independentes, que são respectivamente a atividade biológica e os descritores moleculares (RÜCKER; RÜCKER; MERINGER, 2007). Os valores observados de R² e Q² neste parâmetro devem ser baixos e não apresentar significância real para provar que o modelo não foi obtido por acaso (KIRALJ; FERREIRA, 2009). Nesse contexto, as interceptações por regressão linear (R² e Q²) apresentaram valores abaixo de 0.4 e 0.0, respectivamente. Comprovando que os três modelos não foram obtidos aleatoriamente (figura 25).

Figura 25 – O y-randomization dos modelos preditivos. Os modelos reais são exibidos longe dos modelos

gerados com as amostras aleatórias.

A interpretação do AD-MDI é baseada no erro de previsão (PE) das amostras do conjunto de testes, nas quais elas são usadas para validar a capacidade preditiva do modelo construído. Juntamente com a análise do índice de perturbação do modelo (MDI), no qual é baseado nas informações dos descritores intermoleculares que foram utilizados para construir os modelos lineares de QSAR (MIRANDA et al., 2019). Para simplificar a interpretação do AD-MDI dos três modelos lineares, os resultados foram divididos em quatro quadrantes (A, B,

C e D) (figura 26).

As amostras que estão presente no quadrante A são amostras não confiáveis, que acaba sendo erroneamente considerada confiáveis. O quadrante B é um espaço que idealmente deveria estar vazio, pois é uma área que apresenta um alto índice de PE e MDI, sendo caracterizada por amostras não confiáveis. Diferente do quadrante B, as amostras do conjunto de testes que estão presentes no quadrante C são amostras que apresentam baixos índices de PE e MDI, indicando que as amostras são confiáveis e estão dentro do domínio de aplicabilidade. Por fim, o quadrante D mostra que as amostras são confiáveis, mas são consideradas não confiáveis. Porque as amostras estão em um espaço que apresenta um baixo índice de PE; no entanto, a mesma região mostra um alto índice MDI. O modelo híbrido mostrou o melhor perfil de domínio de aplicabilidade, com muito poucas amostras fora do quadrante C, que é onde a maioria das amostras devem estar e apresentando um total de zero amostras no quadrante B.

Figura 26 - Estudo de domínio da aplicabilidade nos modelos lineares construídos

Fonte: Elaborado pelo autor.

Portanto, com a compilação dos resultados de LNO, y-randomization e do domínio de aplicabilidade para os três modelos construídos, destaca-se o modelo de QSAR Híbrido como o mais estatisticamente significativo e robusto. Consequentemente, foi considerado o mais adequado para prever a atividade biológica dos compostos publicados e analisados. Sendo considerado promissor para prever a capacidade inibitória de novos inibidores da DHQase II.

Os descritores de campo de interação molecular utilizados para construir o modelo final QSAR Híbrido foram expressos em esferas coloridas. Cada descritor é plotado no espaço e nomeado de acordo com sua natureza (LJ, HF e QQ) e de acordo com o sinal de regressão (positivo ou negativo) de cada coeficiente de regressão (figura 27). Um dos compostos mais ativos da série de inibidores da DHQase II (pKi = 7.3) foi usado como referência para facilitar a interpretação visual dos descritores. Além dos descritores 3D, determinados descritores 2D como o AATS8i (autocorrelação média de moreau-broto do lag 8 ponderada pelo potencial de ionização), nHBDon (número de doadores de ligações de hidrogênio) e nsssCH (número de átomos do tipo sssCH) cooperaram no desenvolvimento do modelo matemático híbrido.

Figura 27 - Interpretação dos descritores moleculares, as esferas amarelas são descritores HF negativos, o azul é

LJ negativo, o verde é HF positivo e o rosa é QQ positivo.

Fonte: Elaborado pelo autor.

Documentos relacionados