Professional Documents
Culture Documents
Cours ACP Ouazza
Cours ACP Ouazza
Ouazza Ahmed
2021-2022
1 / 68
Plan
1 Introduction
4 Méthodes de classification
2 / 68
Introduction
3 / 68
Introduction
Tableau de données: (Individu × Variable)
4 / 68
Introduction
5 / 68
Introduction
6 / 68
Analyse en Composante Principales ACP
7 / 68
ACP
8 / 68
ACP
Objectifs:
9 / 68
ACP
Les données:
10 / 68
ACP
Exemple du tableau des données pour ACP:
On considère les notes (de 0 à 20) obtenues par neuf étudiants dans
cinq matières: Mathématiques, Statistique, Français, Anglais et
Musique.
11 / 68
ACP
Matrice des poids:
0 · · · pn
Le cas le plus fréquent est de considérer que tous les individus ont la
même importance c-à-d : pi = n1
Le vecteur G des moyennes arithmétiques de chaque variable
0
G = (x1 , x2 , ..., xp ) définit le point moyen, ou centre de gravité du
nuage.
On a G = X 0 D1n où 1n désigne le vecteur de Rn dont toutes les
composantes sont égales à 1.
12 / 68
ACP
13 / 68
Notion de ressemblance: Critère de la distance Euclidienne
Définition 0.1
Deux individus se ressemblent s’ils possèdent des valeurs proches
pour l’ensemble des variables.
15 / 68
Liaison entre les variables:
Définition 0.2
Deux variables sont liées si elles ont un fort coefficient de corrélation
linéaire.
Le coefficient de corrélation linéaire entre deux variables Xk et Xj est
donné par :
n
Cov(Xj , Xk ) 1X xij − xj xik − xk
Corr(Xj , Xk ) = =
Sj Sk n Sj Sk
i=1
Remarque:
Dans certains cas il est intéressant de pondérer différemment chaque
individu Ii par un poids pi , ainsi le coefficient de corrélation devient :
n
X xij − xj xik − xk
Corr(Xj , Xk ) = pi
Sj Sk
i=1
Avec Sj est l’écart-type de la variable Xj et Sk est l’écart-type de la
variable Xk 16 / 68
ACP
Xj − xj
Xj? =
Sj
avec xj et Sj sont respectivement la moyenne empirique et
l’écart-type de la variable Xj .
17 / 68
ACP
Tableau centré-réduit:
18 / 68
ACP
Tableau centré-réduit:
. ··· . ··· .
.. .. ..
. . .
? ?
xij −xj
. · · ·
X = (X1 , ..., Xp ) = Sj ··· .
. .. ..
.. . .
. ··· . ··· .
19 / 68
ACP
Matrice de Covariance:
V ar(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xp )
Cov(X1 , X2 ) V ar(X2 ) ··· .
V =
.. .. .. ..
. . . .
Cov(X1 , Xp ) ··· ··· V ar(Xp )
et on a:
0 0
V = X DX − GG
20 / 68
ACP
Matrice de Covariance:
1 Cov(X1 , X2 ) · · · Cov(X1 , Xp )
Cov(X1 , X2 ) 1 ··· .
V =
.. .. .. ..
. . . .
Cov(X1 , Xp ) ··· ··· 1
Dans ce cas, on a:
0
V = X DX
21 / 68
ACP
Matrice de Corrélation:
1 Cor(X1 , X2 ) · · · Cor(X1 , Xp )
Cor(X1 , X2 ) 1 ··· .
R=
.. .. .. ..
. . . .
Cor(X1 , Xp ) ··· ··· 1
R = D1V D1
S S
22 / 68
ACP
Inertie totale:
n
X
Si pi = 1
n alors IG = 1
n d2 (Ii , G)
i=1
23 / 68
ACP
Inertie totale:
IG = T race(V ) = p
24 / 68
ACP
Nuages de points:
25 / 68
ACP
26 / 68
ACP
H0 : R = matrice identité
⇒ c-à-d les variables sont deux à deux indépendantes
Où R est la matrice de corrélation
Remarque:
◦ Si |R| = 1, les variables sont deux à deux orthogonales ⇒ ACP
inutile
◦ Si |R| = 0, il y a une colinéarité parfaite ⇒ Le premier facteur
explique 100% de l’inertie totale
27 / 68
ACP
• Statistique de test:
2p + 5
T =− n−1− ln(|R|)
6
p(p−1)
La statistique de test suit une loi du khi-deux χ2 à 2 degrés de
liberté.
28 / 68
ACP
• Règle de décision:
Si T ≥ χ2p(p−1) (1 − α) alors on rejette l’hypothèse nulle H0 au seuil
2
α. Sinon on accepte H0 au seuil α.
avec χ2p(p−1) (1 − α) est le quantile d’ordre (1 − α) d’une loi de χ2 à
2
p(p−1)
2 degrés de liberté.
Remarque: Une deuxième manière de prendre la décision est de
comparer p − value avec le seuil α: Si p − value < α alors on rejette
H0 , sinon on accepte H0 .
29 / 68
ACP
30 / 68
ACP
31 / 68
ACP
• Corrélation partielle
On peut définir la corrélation partielle à partir de la matrice
corrélation comme suit:
Soit R−1 = (vij ) (i, j ∈ {1, · · · , p}) la matrice inverse de la matrice
de corrélation R = (rij ), alors la matrice de corrélation partielle est
Rp = (aij ) (i, j ∈ {1, · · · , p}) tel que:
vij
aij = − √
vii × vjj
32 / 68
ACP
Cet indice est utilisé pour détecter les variables qui se détachent des
autres (les variables dont la corrélation partielle reste proche de la
corrélation brute)
⇒ plus l’indice KM Oj est faible, plus la variable Xj est faiblement
liée globalement aux autres.
34 / 68
Nuage des individus NI
35 / 68
Nuage des individus NI
Chaque individu Ii , i ∈ {1, 2, ..., n} est un élément de Rp
36 / 68
Nuage des individus NI
37 / 68
Nuage des individus NI
38 / 68
On a :
d2 (O, Ii ) = d2 (O, Hi ) + d2 (Hi , Ii )
On déduit:
n n n
1X 2 1X 2 1X 2
d (O, Ii ) = d (O, Hi ) + d (Hi , Ii )
n n n
i=1 i=1 i=1
39 / 68
Ajustement du nuage des individus sur un plan P :
Objectif:
Pn 2
Trouver un plan P tel que i=1 OHi soit maximum.
Avec u1 ⊥ u2
P ⇒ Plan d’inertie maximum.
40 / 68
Cas général: Ajustement du nuage des individus sur un éspace
FK de dimension K:
Objectif:
Trouver une suite d’axes {us , s = 1, ..., K} orthogonaux d’inertie
maximum.
Avec us est un vecteur unitaire de l’axe de rang s.
Soit His la projection de Ii sur us
Donc on cherche us tel que ni=1 (OHis )2 soit maximum.
P
41 / 68
Définition 0.3
Les K axes factoriels {us , s = 1, ..., K} sont appelées les facteurs
principaux.
42 / 68
Exemple:
Pour K = 1 ⇒ Ajustement du nuage sur une droite F1 = U1
Dans ce cas, on a:
• L’axe U1 passe par le centre de gravité G = O du nuage de points
NI .
• L’axe U1 est engendré par le vecteur normé u1 , vecteur propre de la
matrice des corrélations R associé à la plus grande valeur propre λ1 .
• L’inertie expliquée par l’axe U1 est égal à λ1 .
• La part d’inertie expliquée par le premier axe principal U1 est égal à
λ1
p .
Remarquons que p est aussi égal à la somme des valeurs propes de la
matrice de corrélation R.
43 / 68
Pour K = 2 ⇒ Ajustement du nuage sur un plan
F2 = P = (U1 × U2 )
44 / 68
Nuage des variables Nv
45 / 68
Nuage des variables Nv
On peut envisager le problème de la représentation des variables de
façon complètement symétrique de celui des individus.
Ainsi, chaque variable Xj , j ∈ {1, 2, ..., p} est un élément de Rn .
La représentation du nuage Nv des variables se situe dans un espace à
n dimensions, chaque dimension représentant un individu de la
population totale.
Le fait que:
• Les données sont centrées ⇒ Cor(Xj , Xk ) = cos(θkj )
• Les données sont centrées réduites ⇒ ||Xj || = 1
47 / 68
Nuage des variables Nv
Ajustement du nuage des variables Nv :
On cherche ici à obtenir des variables synthétiques {vs , s = 1, ..., K}
et une représentation approchée des corrélations entre les variables.
48 / 68
Nuage des variables Nv
Soitent:
vs un vecteur unitaire de la direction de rang s
Xj représentation de la variable Xj dans Rn
Hjs la projection de Xj sur vs
Pp s 2
L’objectif est de trouver le vecteur vs tel que: j=1 (OHj ) soit
maximum.
avec la contrainte vl ⊥ vs pour l < s
Et on a:
p
X p
X p
X
s 2 s 2
(OHj ) = (cos(θj )) = Cor(Xj , vs )2
j=1 j=1 j=1
Définition 0.4
Les K nouvelles variables (axes factoriels) {vs , s = 1, ..., K} sont
appelées les composantes principales.
Remarque:
La variance d’une composante principale est égale à l’inertie portée
par l’axe principale qui lui est associé.
50 / 68
Remarques:
52 / 68
Représentation simultanée
Relation entre les axes d’inertie et les facteurs des deux nuages:
Proposition 0.5
L’inertie le long de l’axe Us (c-à-d λUs ) est égale à l’inertie le long
0
de l’axe Vs (c-à-d λVs ) nous la notons dans suite par λs .
Les formules de transition entre les deux espaces Rp et Rn sont
données par les relations suivantes :
vs = √Fs 0
λs
us = √Gs0
λs
54 / 68
Représentation simultanée
Proposition 0.6
Les relations de transitions entre les facteurs s’écrivent :
X p
√1
Fs (i) = λ0s xij Gs (j)
j=1
n
X
1
G
s
(j) = √ xij Fs (i)
λ0s
i=1
Cette proposition montre que les facteurs des deux nuages doivent
s’interpréter conjointement. Donc on cherche à analyser
simultanément le nuage NI et le nuage Nv .
55 / 68
Représentation simultanée
56 / 68
Choix de nombre d’axe
Le but de l’ACP étant d’obtenir une représentation des individus dans
un espace de dimension plus faible que p, la question se pose
d’apprécier la perte d’information subie et de savoir combien de
facteurs à retenir.
Pour choisir le nombre d’axe à retenir, on utilise les critères suivant:
• Critère de Kaisser:
On ne retient que les axes dont l’inertie est supérieur à 1 ( inertie
moyenne)
• Critère du coude:
Sur l’éboulis des valeurs propres, on observe un décrochement
(coude) suivi d’une décroissance régulière. On sélectionne les axes
avant le décrochement.
• Pourcentage d’inertie:
Le pourcentage d’information expliqué par les axes doit être
suffisamment grand (par exemple supérieur à 60-70%)
57 / 68
Choix de nombre d’axe
Éboulis des valeurs propres:
58 / 68
Qualité de représentation
(OHis )2
QLTs (Ii ) = = cos2 (θ) (1)
(OIi )2
Où θ est l’angle entre OIi et l’axe s.
Ainsi si QLTs (Ii ) est proche de 1, alors Ii est proche de l’axe s et
donc du plan de projection contenant l’axe s.
59 / 68
Qualité de représentation
(OHjs )2
QLTs (Xj ) = = cos2 (θ) = cor(Xj , vs )2 (2)
(OXj )2
Où θ est l’angle entre OXj et l’axe s.
60 / 68
Qualité de représentation
61 / 68
Qualité de représentation
62 / 68
Contribution
(OHis )2
CTs (Ii ) = Pn s 2 (5)
i=1 (OHi )
La contribution est importante si elle est proche de 1.
63 / 68
Contribution
(OHjs )2
CTs (Xj ) = Pp s 2 (6)
j=1 (OHj )
64 / 68
Interprétation
Dans la suite, on va définir quelques règles pour interpréter les
résultats d’une ACP:
• Pour tout k et l tel que k 6= l, la projection du nuage NI sur le plan
principal engendré (uk , ul ) est appelée carte des individus.
• Pour tout k et l tel que k 6= l, la projection du nuage Nv sur le plan
principal engendré par (vk , vl ) est appelée carte des variables.
• Un individu sera du côté des variables pour lesquelles il a de fortes
valeurs, inversement il sera du côté opposé des variables pour
lesquelles il a de faibles valeurs.
• Plus les valeurs d’un individu sont fortes pour une variable plus il
sera éloigné de l’origine suivant l’axe factoriel décrivant le mieux
cette variable.
• Deux individus à une même extrémité d’un axe (c-à-d éloignés de
l’origine) sont proches (se ressemblent).
• Deux variables très corrélées positivement sont du même côté sur
un axe. 65 / 68
Exemple
66 / 68
Exemple
Carte des variables:
67 / 68
Exemple
Carte des individus:
68 / 68