• Nenhum resultado encontrado

Une analyse discriminante classe les composés de l’échantillon à 96% où 100%

des composés actifs sont bien classés et 92% des composés inactifs sont classés correctement. Les variables discriminant ces composés sont principalement des variables d’autocorrélogrammes 2D et 3D, de forme (indice de Kappa) et d’inertie (Tableau 5).

Variables Total Inactifs bien classés Actifs bien classés 3D bin 9 (charge Q positive) 71 % 83 % 59 %

2D bin 5 (charge Q) 77 % 80 % 74 %

3D bin 0 (charge Q positive) 79 % 83 % 75 %

3D bin 2 (charge Q) 87 % 88 % 86 %

Volume ellipsoïdal 89 % 90 % 88 %

2D bin 6 (Log P) 94 % 93 % 95 %

Kappa 3 96 % 92 % 100 %

r(CV)2 80 % 87 % 90 %

Tableau 5.

Les indices 2D et 3D donnent des informations sur la répartition électronique et lipophilique le long du graphe moléculaire des composés. L’indice Kappa 3 donne lui une information sur le degré de ramification des molécules. Le volume ellipsoïdal montre l’importance de la taille des ligands dans la discrimination des composés. Les seuls composés inactifs mal classés sont le I11 et I13. Ces ligands sont les seuls composés ayant une substitution en alpha de l’azote indolique et un substituant fonctionnel sur le cycle aromatique du motif indolique. Leurs

position de cet échantillon et d’autre part les diverses familles de composés (bicyclique, tricyclique et tétracyclique).

Pour les composés à prédire (Tableau 6), les résultats donnent 5 composés actifs bien prédits et 2 molécules mal prédites. Tous les composés inactifs sont prédits correctement.

Composés Prédiction Expérimental

I53 Actif Actif

I54 Actif Actif

I55 Actif Actif

I56 Inactif Actif I57 Inactif Actif I58 Inactif Inactif I59 Inactif Inactif I60 Inactif Inactif I61 Inactif Inactif I62 Inactif Inactif I63 Inactif Inactif

I64 Actif Actif

I65 Inactif Inactif

I66 Actif Actif

Tableau 6.

L’étude des prédictions donne des résultats en accord avec la validité statistique du modèle. En effet, la quasi-totalité des 14 composés à prédire le sont correctement. En ce qui concerne les deux ligands (I56 et I57) dont la prédiction est mauvaise, nous pouvons spécifier que leur valeur expérimentale de binding (7.8 et 7.85) se trouve très proche du seuil de 7.5 choisi pour distinguer les composés actifs et inactifs.

Une analyse discriminante effectuée sur les trois premiers axes de l’analyse en composantes principales donne un coefficient de discrimination de 0.65% avec les trois axes. Ce résultat faible ne permet pas d’envisager une étude de prédiction pour valider ce modèle.

remarque

Pour l’analyse discriminante, il a fallu que nous déterminions un seuil séparant les composés inactifs des composés actifs. La valeur de ce seuil, arbitrairement choisie, est de 7.5 unités de pIC50. Ce choix pose certaines questions :

- Pourquoi le choix de cette valeur ?

- Quelle sera la validité des prédictions pour ces produits ayant une activité comprises entre 7 et 8 unités de pIC50 ?

- Pourquoi ne pas éliminer des échantillons toutes les molécules ayant une activité comprise entre 7 et 8 de façon à créer des classes plus différenciées ?

Pour répondre à la première question, nous dirons que cette valeur correspond à la valeur moyenne des activités extrêmes de l’ensemble des composés de notre échantillon. Le composé le plus actif à une activité de 11 et le plus faible de 4. Cette valeur de 7.5 semble donc une valeur moyenne de l’échelle d’activité de notre échantillon. En ce qui concerne la validité des prédictions, il est certain que ce choix implique un effet frontière : certains composés prédits inactifs peuvent se révéler faiblement actif et certains ligands prédits actifs seront faiblement inactifs.

Pour répondre à la dernière question, nous dirons que le fait d’éliminer certains produits diminue la taille de l’échantillon et de plus supprime arbitrairement des

pouvoir prédictif de l’équation r(CV)2 est de 0.60. La probabilité de F est 5 10-10, la valeur de s est 0.745.

L’équation utilise sept variables qui sont principalement des variables d’autocorrélogrammes à 2 et 3 dimensions et une variable d’inertie. Les variables sont V1 = 3D bin 9 (charge Q positive), V2 = 2D bin 6 (Log P), V3 = 3D bin 5 (charge Q négative), V4 = 2D bin 11 (Log P), V5 = 2D bin 4 (charge Q négative), V6 = RX et V7 = 2D bin 4 (charge Q). Cette équation prend donc en compte des effets stériques, lipophiliques et électrostatiques.

Graphe 3.

Equation

Y = -0.372 (V6) - 0.343 (V7) + 0.979 (V5) - 0.370 (V2) + 0.291 (V4) + 0.565 (V1) - 1.222 (V3) + 7.090

Les indices pris en compte sont des indices de connectivité pour le 2D et de forme pour le 3D et un indice d’inertie des molécules. Ces descripteurs sont pondérés soit par la charge partielle des atomes, soit par la lipophilie. Ceci est logique puisque ces descripteurs quantifient les trois types d’interactions existant

Composés Prédiction Expérimental Différence

I53 9.5 8.5 1

I54 10.7 9.7 1

I55 8.6 7.6 1

I56 9.4 7.8 1.6

I57 7.45 7.85 0.4

I58 5.2 5 0.2

I59 6.2 5 1.2

I60 9.9 6.5 3.4

I61 8.6 6.6 2

I62 8.3 5.7 2.6

I63 7.4 5.9 1.5

I64 10.5 8.9 1.6

I65 6.4 6.2 0.2

I66 5.2 8.9 3.7

Tableau 7.

Sur les 14 composés (Tableau 7), 6 sont prédits avec un écart de pIC50 inférieur ou égal à 1, 5 sont prédits avec un écart de pIC50 inférieur ou égal à 2 et 3 composés ont un écart de prédiction compris entre 2.6 et 3.7. Parmi ces trois composés, deux sont des composés inactifs.

La dernière méthode utilisée est le Partial Least Square (PLS). Les résultats de cette étude sont regroupés dans le tableau 8 et dans le graphe 4.

Le nombre de vecteurs que nous avons sélectionnés est de 5. Ce vecteur correspond à la première valeur de PRESS faible (6.555). Le coefficient de régression est de 0.81 avec un « cross validation » de 0.55.

Graphe 4.

Ce graphe 4, comme le graphe 3, montre que les composés à forte activité se trouvent plus proche de l’axe de la régression que ne le sont les composés à faible activité. En résumé, les composés actifs sont mieux prédits dans nos modèles que ne le sont les composés inactifs. Ce phénomène est pratiquement retrouvé dans toutes les études QSAR effectuées sur nos familles de composés. Nous attribuons ceci au fait que les composés actifs sont électrostatiquement, stériquement et lipophiliquement plus proche les uns des autres que ne le sont les composés inactifs entre eux. Ce qui fait qu’il existe une meilleure corrélation pour les composés actifs du fait de leurs faibles différences stériques, électrostatiques ou lipophiliques

Composés Prédiction Expérimental Différence

I53 10.9 8.5 2.4

I54 8.5 9.7 1.2

I55 8.7 7.6 1.1

I56 5 7.8 2.8

I57 8.1 7.85 0.25

I58 3 5 2

I59 3 5 2

I60 8.25 6.5 1.75

I61 8.4 6.6 1.8

I62 8.7 5.7 3

I63 8.4 5.9 2.5

I64 7.5 8.9 1.4

I65 8.2 6.2 2

I66 8.6 8.9 0.3

Tableau 9.

Sur les 14 composés (Tableau 9), 2 sont prédits avec un écart de pIC50 inférieur ou égal à 1, 8 sont prédits avec un écart de pIC50 inférieur ou égal à 2 et 4 composés ont un écart de prédiction compris entre 2.4 et 3. Parmi ces quatre composés, deux sont des composés inactifs. Pour les composés I59 et I58, l’écart est de 2 unités de pIC50 mais les composés restent toujours prédits très inactifs (3). On peut également noter que, dans le cas de cette analyse comme dans le cas précédent de la régression

Etude des indices de similarité moléculaire