Quimiometria aplicada aos estudos de QSAR

Fundamentação teórica sobre QSAR e quimiometria aplicada a QSAR

2.5. Quimiometria aplicada aos estudos de QSAR

Conforme mencionado anteriormente, em um estudo de QSAR o principal objetivo é encontrar um modelo matemático que relacione as propriedades de um conjunto de compostos e as atividades biológicas medidas para esses compostos. Este modelo matemático é obtido com o auxílio da quimiometria.

2.5.1. Construção do modelo matemático

A relação entre os descritores moleculares e as propriedades físico-químicas ou biológicas pode ser feita de maneira linear. Desse modo, a equação obtida é:

2.4

onde y é um vetor I-dimensional contendo as propriedades ou atividades da família molecular estudada, X (I x J) é a matriz de descritores, e é um vetor de erros normalmente distribuídos. Os estimadores bi são chamados de coeficientes de regressão

e o objetivo da análise de regressão é encontrar esses coeficientes. Quando se usa a matriz de descritores X diretamente na equação 2.4, o método de regressão é conhecido como regressão linear múltipla, MLR (do inglês Multiple Linear Regression), ou quadrados mínimos ordinários, OLS (do inglês Ordinary Least Squares). No entanto, pode-se usar no

44 𝐞 2

lugar da matriz X uma matriz derivada dela contendo combinações lineares das variáveis em X. Os principais métodos que usam desse expediente são a regressão de componentes principais, PCR do inglês Principal Component Regression, e a regressão de quadrados mínimos parciais, PLS (do inglês Principal Component Regression).

2.5.1.1. Regressão Linear Múltipla (MLR)

A regressão linear múltipla foi o primeiro método de regressão multivariada usado em QSAR e consiste na resolução da equação 2.4 utilizando diretamente a matriz de descritores X. Colocada na forma matricial e considerando-se que a matriz X e o vetor y estejam centrados na média, a equação 2.5 pode ser escrita como:

𝐲 = 𝐗𝐛 + 𝐞 2.5

onde b é o vetor que contém os coeficientes de regressão bj (j = 1,2, …, J). O objetivo da

regressão linear é encontrar o vetor b de modo a minimizar o erro e

𝑚𝑖𝑛 𝐞 ₂ = 𝑚𝑖𝑛 𝐲 − 𝐗𝐛 ₂ 2.6

Em matemática esse problema é conhecido como problema de quadrados mínimos e é a norma-2 do vetor e. A solução para esse problema é encontrada projetando-se o vetor y no espaço gerado pelas colunas de X, que equivale a dizer que e está no núcleo de Xt. Assim temos:

𝐗𝑡𝐞 = 𝐗𝑡𝐲 − 𝐗𝐛 = 0

𝐗𝑡𝐲 = 𝐗𝑡𝐗𝐛 𝐛 = (𝐗𝑡𝐗)−1𝐗𝑡_𝐲

Observando a equação 2.7, pode-se perceber que ela só tem solução se a matriz

XtX possuir inversa. Isso só acontece se o número de colunas da matriz X (descritores)

for menor que o número de linhas (compostos) e se todas as colunas de X forem linearmente independentes, o que equivale a dizer que os descritores não podem ser correlacionados. No entanto, em estudos de QSAR, normalmente o número de descritores é maior que o número de amostras e muitos deles são correlacionados entre si. Assim, o método MLR não pode ser usado nesses casos, a menos que uma cuidadosa seleção de variáveis seja feita.

Para contornar esse problema costuma-se usar métodos de projeção como PCR e PLS. A idéia central desses métodos é substituir os descritores originais por variáveis latentes, que são combinações lineares dos descritores originais e carregam grande parte da informação contida neles, e fazer a regressão com essas novas variáveis.

2.5.1.2. Regressão de componentes principais (PCR)

A ideia principal na regressão de componentes principais é substituir os descritores originais por um subconjunto de componentes principais de X. Essas componentes são sucessivas combinações lineares das colunas de X (descritores) que levam em conta a máxima variação possível sujeita a restrições de ortogonalidade e de tamanho do vetor de pesos. Assim, cada componente principal é dada por:

𝐭_𝑖 = 𝐗𝐩_𝑖_{para i = 1,2, …, A} _2.8 onde A é o número de componentes principais extraídas de X, cujo valor máximo é o menor valor entre I e J, e p é o vetor de pesos. Este vetor tem norma-2 igual a 1 e corresponde a um autovetor da matriz de variância XtX

𝐗𝑡𝐗𝐩_𝑖 = 𝜆_𝑖𝐩_𝑖 2.9

onde λi é o autovalor correspondente. Estes autovetores formam os eixos no novo

sistema de coordenadas no qual as variáveis originais são projetadas. Convenciona-se que os autovalores estão em ordem decrescente, ou seja, 1>2> … >A. Multiplicando-

se à esquerda ambos os lados da equação 2.10 por pi t

, pode-se notar facilmente que

𝐩_𝑖𝑡𝐗𝑡𝐗𝐩𝑖 = 𝜆𝑖𝐩𝑖𝑡𝐩𝑖

𝐭

_𝑖𝑡

𝐭

_𝑖

= 𝜆

_𝑖 2.10

e, portanto, que a variância de uma componente principal é proporcional ao seu autovalor correspondente. Além disso, devido à restrição de ortogonalidade entre os vetores pi pode-se perceber que:

𝐩_𝑗𝑡𝐗𝑡𝐗𝐩_𝑖 = 𝜆_𝑖𝐩_𝑗𝑡𝐩_𝑖

𝐭_𝑗𝑡𝐭_𝑖 = 0 2.11

ou seja, uma dada componente principal é ortogonal a todas as outras. A decomposição bilinear de X, conhecida como análise de componentes principais (PCA do inglês

principal component analysis), é expressa algebricamente como:

2.12

onde a matriz T, chamada de matriz de escores, tem como colunas os vetores t e a matriz de pesos P tem como colunas os vetores p.

Com essa decomposição, pode-se considerar que com apenas as primeiras componentes principais tem-se uma boa representação de X, já que as últimas componentes representam pouca variação em X, o que pode ser insignificante ou apenas ruído. Se inserirmos 𝜆𝒊 −𝟏/𝟐 𝜆_𝒊𝟏/𝟐_entre_t i e pi t na equação 2.12 temos: 2.13

que mostra a equivalência entre a análise de componentes principais e a decomposição de valores singulares (SVD2). Na equação 2.13, ui representa um vetor singular à

esquerda, σi representa um valor singular e vi=pi representa um vetor singular à direita.

A matriz X é então projetada em um novo sistema de coordenadas em que os novos eixos são representados pelos vetores pi e os vetores ti, para i variando de 1 até A,

são as coordenadas das amostras nesse novo sistema. Como grande parte da variação em

X pode ser expressa em poucas componentes principais, a matriz T pode ser usada agora

na resolução do problema de quadrados mínimos, pois o número de colunas é menor que o número de linhas e essas colunas são ortogonais entre si. Assim, de maneira análoga ao que foi feito em MLR, temos:

2.14

com

𝐪 = (𝐓𝑡𝐓)−1𝐓𝑡𝐲 2.15

É interessante, no entanto, termos uma equação que relacione diretamente X e y, isto é , já que é fundamental em QSAR a interpretação da equação obtida em

termos dos descritores originais. Como

, substituindo T por XP percebe-se facilmente que:

𝐛 = 𝐏𝐪

2.16

Assim, uma equação de regressão pode ser obtida em termos dos descritores originais mesmo que a matriz X tenha mais descritores do que compostos e que existam descritores correlacionados entre si, pois a matriz usada na regressão (matriz de escores

No documento Desenvolvimento de softwares, algoritmos e diferentes abordagens quimiométricas em estudos de QSAR (páginas 76-81)