• Nenhum resultado encontrado

A Analyse de corrélation

No documento DOCTEUR DE L’UNIVERSITE PARIS VI (páginas 56-60)

Chapitre III L’apport de la chimiométrie à la classification des colonnes chromatographiques

III. A Analyse de corrélation

Il est assez fréquent dans le domaine des sciences appliquées d’être confronté à des phénomènes aux comportements liés. La mise en évidence de la liaison peut s’effectuer de façon descriptive, sans avoir recours à un modèle24.

III.A.1 Principe

Les études de corrélation permettent de déceler une éventuelle relation entre des réponses mesurées sur un même objet [259, 260].

Dans le cas de deux variables, ceci se réalise au moyen de la covariance, qui par définition, caractérise la liaison entre les variables x et y et peut être estimée par :

( ) ( )( )

1 1 1 1

1 1 1

cov ,

1 1

n n n n

i i i i i i

i i i i

x y x x y y x y x y

n = n = n = =

⎡ ⎤

= −

− − = − ⎣⎢

∑ ∑

⎥⎦, où n représente le

nombre de mesures. Ainsi, dans le cas d’une relation linéaire entre les deux variables de type y=ax, la valeur absolue de la covariance est maximale :

( ) ( )

2 2

1

cov , 1

1

n

i x

i

x y a x x as

n =

= − =

.

L’usage de la covariance est souvent délaissé au profit du coefficient de corrélation (linéaire) de Pearson, indicateur issu simplement de la normalisation de la covariance par les écart-types

estimés de chaque variable :

( ) ( ) ( )( )

( ) ( )

1

2 2

1 1

cov , ,

n

i i

i

n n

x y

i i

i i

x x y y

r x y x y

s s x x y y

=

= =

− −

= =

− −

∑ ∑

.

Ce coefficient, sans dimension, mesure l’intensité de la liaison linéaire entre deux variables observées. Il est indépendant des unités de mesure de X et de Y. Sa valeur peut varier entre -1, signifiant une corrélation négative et parfaite25, et +1, pour une corrélation positive parfaite.

Néanmoins, signalons que l’obtention de ces valeurs extrêmes n’est jamais observée en pratique à cause des erreurs de mesure.

L’existence d’une corrélation entre deux variables peut être décelée graphiquement. Le report des couples d’observations (xi, yi) sur un graphique en prenant pour abscisse la variable X et pour ordonnée la variable Y constitue un nuage de points, encore appelé diagramme de dispersion, dont la forme permettra de constater une éventuelle relation entre les deux variables, comme le montre la Figure III-1.

24 L’objectif principal des statistiques descriptives est de fournir une meilleure lisibilité du système étudié afin d’en améliorer la compréhension. En cela, elles constituent une étape préliminaire indispensable à toute tentative de modélisation.

25 La corrélation parfaite correspond à une relation linéaire.

L’apport de la chimiométrie à la classification des colonnes chromatographiques

Figure III-1 : Diagrammes de dispersion de variables aléatoires y1 et y2 avec divers coefficients de corrélation : (a) r=0,75 ; (b) r=-0,32 ; (c) r=-0,95 ; (d) r=0 ; (e) r=0 et (f) r=1.

Si deux variables sont indépendantes, leur coefficient de corrélation est nul. Cependant, la réciproque n’est pas vraie : il suffit que la relation entre les deux variables soit d’une autre nature que linéaire (cas e sur la Figure III-1).

Il est possible d’étendre le traitement à m variables. L’établissement de ces corrélations pour un jeu de m variables constitue d’ailleurs une étape préalable indispensable à l’analyse multivariée [261]. Néanmoins, les études de corrélations s’effectuent en général sur des paires de variables.

Le fait que le coefficient de corrélation linéaire, lorsqu’il est significatif, fournit une indication de l’intensité de la relation linéaire entre deux variables, permet d’envisager un ajustement linéaire du nuage de points, de type y=ax+b, définissant ainsi la droite de régression.

Ainsi, la littérature rend compte des études de corrélations de deux manières, l’examen des valeurs du coefficient r ou du diagramme de dispersion ajusté par une relation linéaire, ce que va illustrer la section suivante.

III.A.2 Applications

La littérature propose de nombreux tests pour caractériser les phases stationnaires. Aussi, devant cette diversité, quelques auteurs ont réalisé des synthèse comparatives [192, 239, 245, 262], qui s’appuient sur des études de corrélations. Ces résultats sont présentés soit sous forme d’un tableau de corrélations (cf. Tableau III-1), soit au moyen d’une régression linéaire (cf. Figure III-2).

Tableau III-1 : Coefficients de corrélation (r) entre des descripteurs estimant des mêmes propriétés chromatographiques ; A représente l’aire du pic et {, sa hauteur [262].

9 0,518 0,631 -0,145 0,364 0,018 -0,013 0 0,382 1

8 0,561 0,764 0,669 0,726 0,95 0,768 0,943 1 -0,072 0,343 0,189 0,522 0,259 0,028 -0,171 1

7 0,523 0,657 0,579 0,615 0,976 0,663 1 0,637 0,463 0,107 0,349 0,482 0,465 1 0,4 -0,092 -0,146 -0,076 -0,461 0,484 1

6 0,383 0,713 0,989 0,994 0,734 1 0,545 0,335 0,388 0,15 0,547 1 0,061 0,118 -0,27 -0,028 0,362 1

5 0,505 0,672 0,667 0,7 1 0,65 0,663 0,681 0,815 1 -0,116 0,3 0,006 0,113 1

4 0,377 0,707 0,999 1 0,63 0,71 0,067 1 0,211 0,51 -0,294 1

3 0,917 0,982 1 0,364 0,692 1 0,212 0,18 1 -0,327 -0,453 1

2 0,903 1 0,629 1 0,816 1 0,8 1

1 1 1 1 1

1 2 3 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9

Descripteur (N°Test) NMPPH (II) Ntoluène (VII) Npentylbenzène (VIII) kdiazepam/kMPPH (II) ktoluène/kMPPH (II) ktoluene (VII) kethylbenzene (VII) kéthylbenzène/ktoluène (VII) kpentylbenzène (VIII) kéthylbenzène/ktoluène (VIII) kpentylbenzène/kbutylbenzène (VIII) Asdiphénhydramine (II) kdipnhydramine/kMPPH (II) kcaféine/kphénol (VI) kpyridine/kcaine (VI) kpyridine/kphénol (VI) Aspyridine (VI) Asp-éthylaniline (VII) DERT (I) Aacétylacétone/{acétylacétone (III) Nacétylacétone (III) Asacétylacétone (III) k2,2'-dipyridyl (VI) k2,3-dihydroxynaphthalène (VI) As2,2’-dipyridyl (VI) As2,3-dihydroxynaphthalène (VI) k2,3-dihydroxynaphthalène/k2,2'-dipyridyl (VI)

Propriété Efficacité Hydrophobie Activité des silanols Impuretés métalliques

Dans un souci de lisibilité, le Tableau III-1 se présente sous forme de matrices diagonales supérieures. Les valeurs de r traduisent des degrés disparates de corrélation : certains indicateurs d’hydrophobie s’avèrent très corrélés, comme les facteurs de rétention du toluène et du pentylbenzène, tandis que d’autres ne sont que très faiblement corrélés voire pas du tout, à l’image du couple {As2,2’-dipyridyl- k2,3-dihydroxynaphthalène/k2,2'-dipyridyl}. La plupart des couples de

L’apport de la chimiométrie à la classification des colonnes chromatographiques descripteurs possèdent des degrés intermédiaires de corrélation26. Cette étude démontre que certains descripteurs s’avèrent fortement redondants (forte corrélation) et pourront être sujet à élimination, alors que d’autres sont complémentaires (corrélation faible à nulle)27.

Au contraire des tableaux de corrélations, à vocation exploratoire, l’approche de la droite de régression n’est généralement envisagée que lorsque l’on soupçonne une tendance à une forte corrélation, ce qu’illustre la Figure III-2 .

Figure III-2 : Droite de régression du facteur de rétention de l’éthylbenzène (Engelhardt) en fonction de celui du pentylbenzène (Tanaka) pour des phases purement alkyle [192].

Cette approche permet de montrer une équivalence entre deux variables. Ainsi réaliser le test de Tanaka au détriment de celui d’Engelhardt ne porte pas réellement à conséquence, du moins sur le descripteur étudié, puisqu’ils produisent des résultats pouvant être considérés comme similaires. Les études de corrélations sous cette forme sont généralement utilisées pour relier entre eux certains descripteurs qui peuvent être de nature similaire ou différente [245].

III.A.3 Limitations

Les études de corrélations souffrent de leur binarité. En effet, si elles permettent de conclure rapidement en cas de très haute ou de très faible corrélation, leur interprétation s’avère cependant délicate, voire limitée dans les cas intermédiaires, qui sont les plus fréquents dans notre problématique.

D’autre part, dans le cadre de la réduction du nombre de descripteurs, si des corrélations élevées entre deux d’entre eux signifient leur quasi-équivalence, elles ne suffisent pas à sélectionner le plus pertinent des deux. Pour cela, il faudra faire appel à d’autres outils.

26 Il est cependant dommage qu’il ne soit aucunement fait mention du seuil de significativité, qui permettrait d’établir la limite inférieure de corrélation en deçà de laquelle il est inutile de considérer la relation.

27 Etant donné le type de données (grandeurs de rétention et asymétries de pic), il est difficile de concevoir des relations entre ces paramètres autres que linéaires. Ainsi, une corrélation nulle signifie indépendance des descripteurs.

No documento DOCTEUR DE L’UNIVERSITE PARIS VI (páginas 56-60)