1
Tableaux multiples et données évolutives
N. Niang Keita [email protected]
Gilbert Saporta [email protected] mai 2011
2
• Suite de tableaux individus
xvariables
xtemps
– temps discret 1,2,.. t, ... T – « données de panels »
– données « cubiques »
3
Plan
1. Généralités 2. Double ACP 3. STATIS
4. AFM
4
5
1. Généralités
• Espace des individus
– T nuages, n trajectoires
6
• Espace des variables
– T matrices de variance-covariance – T sous-espaces de Rn
7
• Etude classique d’un tableau: l’ACP associe au tableau un ensemble de représentation graphiques (
cercle de corrélations, plans factoriels)
• Plusieurs tableaux: études séparéesÎ trop de représentations indépendantes, pas
pertinent; d’où:
• Recherche d’un ensemble unique de
représentation, un résumé global, un
compromis des tableaux
8
4 étapes:
• Interstructure : étude globale des différences entre tableaux
• Compromis : résumer les tableaux en un seul
représentatif selon certains critères
• Intrastructure : étude fine des différences entre tableaux
• Trajectoires : évolution des individus ou variables suivant les tableaux
9
2. La double ACP (Bouroche,J.M., 1975)
• ACP n°1: nuage des centres de gravité g
tcomme étude de l’interstructure
• Recherche de l’intrastructure
– ACP de chaque tableau: T systèmes d’axes – Système d’axes compromis maximise
l’inertie de la somme des projections de
chaque nuage = somme des inerties après centrage
10
double ACP (suite)
• Axes compromis : vecteurs propres de
• ACP n°2: ACP de la concaténation
verticale (superposition) des X
tcentrés X
1X
2X
T1 T
t t=
∑ V
11
double ACP: exemple
• Crimes et délits en 9 catégories pour l’ensemble des départements métropolitains, par année de 1974 à 1993
• VO : vols et recels
• FX :faux et escroqueries
• DF: délits financiers
• CH: chèques sans provisions
• CR: coups, réglements de comptes, traumatismes
• ST: stupéfiants
• DD: destructions et dégradations
• ET : délits à la police des étrangers
• DV : divers
12
13
14
15
16
17
18
19
20
21
22
3. La méthode STATIS
(Escoufier et L’Hermier des Plantes (1976) + C.Lavit)• Structuration de Tableaux A Trois Indices de la Statistique
• permet l’exploration simultanée de plusieurs tableaux de données
quantitatives:
• n individus et p variables Î STATIS
– Privilégie la position des individus
23
STATIS
• Idées essentielles de la méthode:
– recherche d’une réponse à la question: les
distances entre individus sont elles stables d’un tableaux à un autre ?
– Nécessité de trouver une structure commune aux études ou intrastructure
24
Rappels d’ACP
• ACP classique : triplet ( X , M , D)
– facteurs principaux : MVu = λu – composantes principales : c = Xu
MX’DXu= λu
XMX’DXu= λXu WDc= λc
W =matrice des produits scalaires entre individus
Composantes principales WDc = λc
25
Etude de l’interstructure : analyse globale
• ACP particulière: 3 phases
– Définir un objet représentatif
– Définir une métrique pour distances entre objets – Trouver une image des objets représentatifs
26
Interstructure, objet représentatif: W
t• W
t= X
tM
tX’
tcaractérise (X
t, M
t, D)
– W
tcontient les produits scalaires entre individus = tous les liens inter- individus – ses vecteurs propres sont les
composantes principales
– permet de reconstruire la géomètrie du nuage
– “Opérateur d’Escoufier”
27
• Métrique de l’ACP:
définit une distance entre objets
Produit scalaire de Hilbert Schmidt:
Si les objets Wt ont des normes très
différentes, on utilise le cosinus associé:
( )
' ' '
tt = t t HS =Tr t t
S W W DW DW
( )
2( )
2, ' '
/ [ ] [
']
t t t t t t
RV = W W Tr DW Tr DW
28
• RV coefficient de corrélation vectoriel
– mesure la liaison entre deux tableaux de données portant sur les mêmes individus – RV=1 si les nuages associés sont
homothètiques – RV positif ou nul
29
• STATIS: une ACP particulière
– Individu (ou “supervariable”) = Wt = objet représentatif d’un tableau
– Matrice de corrélation = S = Matrice des
coefficients RV (produits scalaires entre objets normés Wt)
– Composante principale = vecteur propre de S – Facteur taille car tous les RV sont positifs
30
Interstructure image représentative des objets
• ACP de S
Les vecteurs propres de S associés aux deux plus grandes valeurs propres permettent la
représentation des objets W1,…, WT sur un plan factoriel :
– Les coordonnées des Wt sur l’axe i sont contenues dans ct,i:
,
t i
= λ
i ic u
ième valeurpropre de S ième vecteur propre de S
31
STATIS - Résumé Interstructure
•
32
Compromis-Intrastructure
Interstructure = analyse globale
mise en évidence de ressemblances ou différences globales entre tableaux sans les expliquer.
Objectif de la suite = analyse plus fine pour expliquer Deux étapes:
* recherche d’un point de repère= compromis
* étude de l’intrastructure
33
Recherche d’un compromis
Compromis = bon résumé, de même nature Co que les objets
solution: Wco moyenne pondérée des W
tLes coefficients sont tels que Wco soit le plus corrélé avec les W
t1
W W
T
CO t t
t
α
=
= ∑
34
En ACP usuelle, la première composante principale vérifie un principe d’association maximale
Ici on prendra pour α
jles composantes (toutes positives) du premier vecteur propre de S
( )
2
1 1
max
p;
javec
p j jj j
r c x c α x
= =
∑ = ∑
35
Recherche d’un compromis
1
W W
T
CO t t
t
α
=
= ∑
( ) 1 1
1 u t αt
= λ
1ère valeur propre de S
tième élément du 1er vecteur propre de S
t = t ′t
W X MX
Matrice de données initiales
Matrice compromis W co
CO36
• Wco est encore un opérateur
d’Escoufier car les α
jsont non négatifs
• Wco est donc associé à un tableau de données “compromis” X tel que
Wco=XMX’
• ACP de
• Pondération des tableaux
1 1 2 2
...
T Tα α α
=
X X X X
37
Recherche d’un compromis
4 cas 4 cas: :
** Wt ont des normes voisines et des grands RVWt ont des normes voisines et des grands RV:: existence d
existence d’’une structure commune bien une structure commune bien ddéécrite par le compromiscrite par le compromis
** un Wt diffun Wt difféérent des autresrent des autres: il intervient peu : il intervient peu dans la construction du compromis, robuste dans la construction du compromis, robuste
** Wt normes trop diffWt normes trop difféérentesrentes: il faut normer: il faut normer
** Wt trWt trèès diffs difféérents, RV faibles: pas de rents, RV faibles: pas de structure commune
structure commune
38
Statis: exemple
• Elections présidentielles de 1969 à 1988
– résultats par département
39
40
41
42
43
Intrastructure image représentative des points compromis
• ACP de WCO
• Les vecteurs propres de WCO associés aux deux plus grandes valeurs propres fournissent une image euclidienne des points compromis
– Les coordonnées compromis sur l’axe i sont contenues dans le vecteur cCO,i:
,
1
CO i i i co i
i
δ δ
= =
c v W v
ième valeur propre de WCO ième vecteur propre de WCO
44
45
Intrastructure : corrélation variables-compromis
• Chaque composante principale du compromis
est un vecteur à n dimension, n étant le nombre d’individus des tableaux initiaux.
• Calcul de leurs corrélations avec les variables initiales des tableaux Xt
• Représentation des cercles de corrélation
• Interprétation des axes pour expliquer les positions compromis des individus
46
47
48
STATIS - Intrastructure
49
STATIS - Trajectoires des individus
• Méthode: technique des points supplémentaires:
Représentation sur l’image euclidienne compromis des N nuages des individus
• Remarque : cCO,i est le “centre de gravité” des points cCO t,i ,
1
CO t i t i
δ
i=
c W v
50
STATIS - Trajectoires des individus
• Objectif :
– Mise en évidence des écarts entre les Wt et avec le compromis au niveau individuel
– Détection des individus responsables des écarts entre tableaux
• Définition :
– On place les différentes positions d’un individu tel qu’il est décrit par chaque étude. Ces différentes positions définissent sa trajectoire
51
Interprétation des trajectoires
• Deux classes de trajectoires des individus :
– Peu étendue autour de sa position compromis = individus dont l’évolution suit l’évolution moyenne, écart par rapport à la moyenne régulier d’un tableau à l’autre
– Trajectoire de grande amplitude = changement de structure suivant les tableaux, différence avec l’évolution moyenne
Rque: si les axes du compromis sont bien corrélés avec les variables on pourra expliquer les axes par les variables et on interprètera de façon détaillée les trajectoires des individus
52
53
54
4. l’AFM : analyse factorielle multiple
• Une autre manière de pondérer les
tableaux: égaliser les premières valeurs
propres de chaque ACP
55
AFM
• Objet représentatif
• Compromis
• Intrastructure ACP de
( ) 1
1
t t
λ W
1 ( )
1 T
1
t t
t=
λ
∑ W
1 2
(1) (2) ( )
1 1 1
1 1 1
...
Tλ λ λ
T=
X X X X
56
57
58
59
L’interstructure en AFM
• La norme d’un objet ne vaut pas 1 mais est d’autant plus grande que le nuage associé est plus multidimensionnel
(premiers facteurs nombreux et d’importance comparable)
• Représentation de chaque tableau par les
produits scalaires entre objets et (objets
associés aux) axes du compromis
60
61
62
Remarques et extensions
• La double ACP : T tableaux où les individus ne sont pas forcément les mêmes, mais variables identiques
• STATIS et AFM T tableaux avec des
variables éventuellement différentes mais les mêmes individus
• STATIS duale pour comparer des matrices
de variance
63
Références
Bry, X. Analyses factorielles multiples, Economica, 1996
Escofier, B., Pagès, J. Analyses factorielles
simples et multiples, 4ème édition, Dunod , 2008 Kroonenberg, P., Applied Multiway Data Analysis,
Wiley, 2008
Lavit, C., Analyse conjointe de tableaux quantitatifs, Masson, 1998