Cours ACP Ouazza

Analyse Des Données
Ouazza Ahmed
Institut National de Statistique et d’Economie Appliquée

(INSEA)
2021-2022
1 / 68
Plan
1 Introduction
2 Analyse en Composante Principales ACP
3 Analyse Factorielle des Correspondances AFC
4 Méthodes de classification
5 Analyse des Correspondances Multiples ACM
2 / 68
Introduction
• Dans toute étude statistique, la première démarche consiste à décrire

et explorer l’ensemble des données qu’on dispose.
• Dans le cas où des données sont de grande dimension (c-à-d le
nombre de variables ou de caractères est trop élevées), il est difficile
de les visualiser. Alors il est nécessaire d’extraire l’information
pertinente contenue dans l’ensemble des données, les techniques
d’analyse des données répondent à ce besoin.
• Par conséquent, on peut définir l’analyse des données comme
ensemble de méthodes descriptives ayant pour objectif de visualiser et
résumer l’information contenue dans un grand tableau de données.
3 / 68
Introduction
Tableau de données: (Individu × Variable)
On suppose qu’on dispose p variables X1 , X2 , ..., Xp observées sur n

individus I1 , I2 , ..., In , alors chaque variable Xj , j ∈ {1, 2, ..., p} est
un élément de Rn et chaque individu Ii , i ∈ {1, 2, ..., n} est un
élément de Rp .
X1 ... Xj ... Xp
I1 x11 ... x1j ... x1p
. . ... . ... .
. . ... . ... .
. . ... . ... .
Ii xi1 ... xij ... xip
. . ... . ... .
. . ... . ... .
. . ... . ... .
In xn1 ... xnj ... xnp
4 / 68
Introduction
La forme matricielle du tableau précédent est donnée comme suit:

 
x11 · · · x1j · · · x1p
 .. .. 
 . . 
 
X = (X1 , ..., Xp ) =  xi1 · · · xij · · · xip 


 .. .. 
 . . 
xn1 · · · xnj · · · xnp
5 / 68
Introduction
Tableau de données: (Variable × Variable)
Dons ce cas, on cherche à croiser deux variables X et Y d’une

population en dénombrant l’effectif correspondant à la conjonction
«variable 1» et «variable 2», on parle de tableau de contingence:
X\Y y1 ... yj ... yK

x1 n11 ... n1j ... n1K
. . ... . ... .
. . ... . ... .
. . ... . ... .
xi ni1 ... nij ... niK
. . ... . ... .
. . ... . ... .
. . ... . ... .
xL nL1 ... nLj ... nLK
6 / 68
Analyse en Composante Principales ACP
7 / 68
ACP
• Analyse en composante principale ACP est une technique des

statistiques descriptives destinée à l’analyse des données
multidimensionnelles.
• Analyse en composante principale permet d’explorer les liaisons
entre variables et les ressemblances entre individus.
8 / 68
ACP
Objectifs:
• L’ACP permet de réduire la dimension de l’espace des variables

avec le minimum de perte d’information.
• Visualiser le positionnement des individus les uns par rapport aux
autres (ressemblance) ⇒ Notion de distance entre individus.
• Visualiser les corrélations entre les variables.
• Donner une interprétation aux facteurs.
9 / 68
ACP
Les données:
Les données pour l’ACP sont généralement présentées sous la forme

du tableau précédemment vu (pages 4 et 5):
 
x11 · · · x1j · · · x1p
 .. .. 
 . . 
 
X =  xi1 · · · xij · · · xip 


 .. .. 
 . . 
xn1 · · · xnj · · · xnp
• Les variables X1 , ..., Xp sont supposées quantitatives.
• xij est la valeur de la variable Xj pour l’individu Ii .
• n désigne le nombre d’individus (observations) et p le nombre de
variables.
10 / 68
ACP
Exemple du tableau des données pour ACP:
On considère les notes (de 0 à 20) obtenues par neuf étudiants dans
cinq matières: Mathématiques, Statistique, Français, Anglais et
Musique.
Etudiant Math Stat Fran Angl Musique

I1 6 6 5 5,5 8
I2 4,5 5 7 7 14
I3 6 7 11 9,5 11
I4 14,5 14,5 15,5 15 5
I5 14 14 12 12,5 6
I6 16 15 5,5 5 7
I7 5,5 7 14 11,5 10
I8 13 12,5 8,5 9,5 12
I9 6 8,5 13,5 13 18
11 / 68
ACP
Matrice des poids:
On affecte à chaque individu Ii un poids pi reflétant P

son importance
par rapport aux autres individus, avec 0 < pi < 1 et ni=1 pi = 1.
On appelle matrice des poids la matrice diagonale d’ordre (n × n)
dont les éléments diagonaux sont les poids pi , i = 1, .., n
 
p1 · · · 0
D = diag(p1 , ..., pn ) =  ... . . . ... 
 
0 · · · pn
Le cas le plus fréquent est de considérer que tous les individus ont la
même importance c-à-d : pi = n1
Le vecteur G des moyennes arithmétiques de chaque variable
0
G = (x1 , x2 , ..., xp ) définit le point moyen, ou centre de gravité du
nuage.
On a G = X 0 D1n où 1n désigne le vecteur de Rn dont toutes les
composantes sont égales à 1.
12 / 68
ACP
Matrice des poids:
De la même manière, on peut définir la matrice des poids pour les

variables, en affectant à chaque variable Xj un poids mi reflétant son
importance par rapport aux autres. Ainsi, la matrice des poids pour les
variable est donnée comme suit::
 
m1 · · · 0
M = diag(m1 , ..., mp ) =  ... .. .. 

. . 
0 ··· mp
Le cas le plus fréquent est de considérer que tous les variables ont la
même importance c-à-d : mi = p1
13 / 68
Notion de ressemblance: Critère de la distance Euclidienne
Définition 0.1
Deux individus se ressemblent s’ils possèdent des valeurs proches
pour l’ensemble des variables.
Donc on parle d’une notion de proximité qui se traduit par une

distance.
Ainsi, nous définissons la distance euclidienne entre deux individus Ii
et Ij par :
p
X
d2 (Ii , Ij ) = (xik − xjk )2
k=1
Remarque:
Dans le cas où les différentes variables n’ont pas la même importance
(c-à-d le poids mk 6= p1 ), la distance entre deux individus Ii et Ij
devient :
Xp
2
d (Ii , Ij ) = mk (xik − xjk )2
k=1
14 / 68
Notion de ressemblance: Critère de la distance Euclidienne
Par exemple, dans le plan, la distance euclidienne entre deux points A

et B est donnée par:
15 / 68
Liaison entre les variables:
Définition 0.2
Deux variables sont liées si elles ont un fort coefficient de corrélation
linéaire.
Le coefficient de corrélation linéaire entre deux variables Xk et Xj est
donné par :
n
Cov(Xj , Xk ) 1X xij − xj xik − xk
Corr(Xj , Xk ) = =
Sj Sk n Sj Sk
i=1
Remarque:
Dans certains cas il est intéressant de pondérer différemment chaque
individu Ii par un poids pi , ainsi le coefficient de corrélation devient :
n
X xij − xj xik − xk
Corr(Xj , Xk ) = pi
Sj Sk
i=1
Avec Sj est l’écart-type de la variable Xj et Sk est l’écart-type de la
variable Xk 16 / 68
ACP
Transformation des données (Problèmes des unités de mesure) :
Parfois, les variables contenues dans le tableau X peuvent être

exprimées en différentes unités (cm, kg...)
⇒ Pour neutraliser ce problème des unités on remplace les données
d’origine X1 , ..., Xp par les données centrées-réduites. Ainsi chaque
variables Xj , j = 1, ..., p est remplacée par:
Xj − xj
Xj? =
Sj
avec xj et Sj sont respectivement la moyenne empirique et
l’écart-type de la variable Xj .
17 / 68
ACP
Tableau centré-réduit:
X1? ... Xj? ... Xp?

I1 .
. .
. .
. .
xij −xj
Ii . ... Sj ... .
. .
. .
. .
In .
18 / 68
ACP
Tableau centré-réduit:
. ··· . ··· .
 
.. .. .. 
. . . 
? ?
 xij −xj 
. · · ·
X = (X1 , ..., Xp ) =  Sj ··· .  
. .. .. 
.. . . 
. ··· . ··· .
19 / 68
ACP
Matrice de Covariance:
La matrice de covariance associée au tableau X est donnée par:
 
V ar(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xp )
Cov(X1 , X2 ) V ar(X2 ) ··· . 
V =
 
.. .. .. .. 
 . . . . 
Cov(X1 , Xp ) ··· ··· V ar(Xp )
et on a:
0 0
V = X DX − GG
20 / 68
ACP
Matrice de Covariance:
Dans le cas où le tableau X est centré, la matrice de covariance

devient:
 
1 Cov(X1 , X2 ) · · · Cov(X1 , Xp )
Cov(X1 , X2 ) 1 ··· . 
V =
 
.. .. .. .. 
 . . . . 
Cov(X1 , Xp ) ··· ··· 1
Dans ce cas, on a:
0
V = X DX
21 / 68
ACP
Matrice de Corrélation:
La matrice de corrélation associée au tableau X est donnée par:
 
1 Cor(X1 , X2 ) · · · Cor(X1 , Xp )
Cor(X1 , X2 ) 1 ··· . 
R=
 
.. .. .. .. 
 . . . . 
Cor(X1 , Xp ) ··· ··· 1
Si on pose D 1 = diag( S11 , ..., S1p ), alors

S
R = D1V D1
S S
Où Sj est l’écart-type de la variable Xj . Remarquons que Sj = 1 si le

tableau X est centré-réduit.
22 / 68
ACP
Inertie totale:
• On appelle inertie la quantité d’information contenue dans un

tableau de données.
• Une inertie nulle signifie que tous les individus sont presque
identiques.
• L’inertie mesure la dispersion totale du nuage du points.
• L’inertie est la somme pondérée des carrés des distances des
individus au centre de gravité G.
n
X
IG = pi d2 (Ii , G)
i=1
n
X
Si pi = 1
n alors IG = 1
n d2 (Ii , G)
i=1
23 / 68
ACP
Inertie totale:
L’inertie est aussi égale à la somme des variances des variables

étudiées:
p
X p
X
IG = V ar(Xj ) = Sj2 = T race(V )
j=1 j=1
Dans le cas où X est centré-réduit on a:
IG = T race(V ) = p
24 / 68
ACP
Nuages de points:
Dans l’ACP, on peut définir deux types de nuages de points:
1) Nuage des individus NI
2) Nuage des variables Nv
Dans la suite, on suppose que le tableau des données X est

centré-réduit.
C-à-d xj = 0 et V ar(Xj ) = 1 pour j = 1, ..., p
25 / 68
ACP
Avant de réaliser une ACP, on doit:

• Tester l’intérêt de l’ACP en vérifiant s’il est possible de compresser
efficacement l’information disponible
• Mesurer le degré de redondance des données
On utilise deux critères:

⇒ Test de sphéricité de Bartlett
⇒ Indice KMO (Kaiser – Mayer – Olkin)
26 / 68
ACP
Test de sphéricité de Bartlett
Le test de sphéricité de Bartlett vérifie l’hypothèse nulle selon

laquelle toutes les corrélations entre Xj et Xk (avec j 6= k) seraient
égales à zéro. C-à-d on cherche a tester l’hypothèse suivante:
H0 : R = matrice identité
⇒ c-à-d les variables sont deux à deux indépendantes
Où R est la matrice de corrélation
Remarque:
◦ Si |R| = 1, les variables sont deux à deux orthogonales ⇒ ACP
inutile
◦ Si |R| = 0, il y a une colinéarité parfaite ⇒ Le premier facteur
explique 100% de l’inertie totale
27 / 68
ACP
• Statistique de test:

2p + 5
T =− n−1− ln(|R|)
6
p(p−1)
La statistique de test suit une loi du khi-deux χ2 à 2 degrés de
liberté.
28 / 68
ACP
• Règle de décision:
Si T ≥ χ2p(p−1) (1 − α) alors on rejette l’hypothèse nulle H0 au seuil
2
α. Sinon on accepte H0 au seuil α.
avec χ2p(p−1) (1 − α) est le quantile d’ordre (1 − α) d’une loi de χ2 à
2
p(p−1)
2 degrés de liberté.
Remarque: Une deuxième manière de prendre la décision est de
comparer p − value avec le seuil α: Si p − value < α alors on rejette
H0 , sinon on accepte H0 .
29 / 68
ACP
Indice KMO (Kaiser – Mayer – Olkin)
KMO (ou MSA: Measure of sampling adequacy)est un indice

d’adéquation de la solution factorielle, il indique jusqu’à quel point
l’ensemble de variables retenu est un ensemble cohérent.
L’idée de KMO est de confronter la matrice des corrélations brutes
avec la matrice des corrélations partielles.
On considère p variables quantitatives X1 , · · · , Xp : la corrélation
entre deux variables Xj et Xk est influencée par les (p − 2) autres. La
corrélation partielle est utilisée pour mesurer la relation entre deux
variables en retranchant l’influence de (p − 2) autres.
30 / 68
ACP
• Si la corrélation partielle est très faible en valeur absolue (' 0),

c-à-d KMO ' 1, cela veut dire que la liaison est déterminée par les
(p − 2) autres variables: dans ce cas l’ACP peut agir efficacement
(réduction efficace de l’information).
• Si la corrélation partielle est plus élevée en valeur absolue, c-à-d
KMO < < 1, alors on conclut qu’il y a une relation directe entre les
deux variables: dans ce cas, une compression efficace de
l’information n’est pas possible.
31 / 68
ACP
• Corrélation partielle
On peut définir la corrélation partielle à partir de la matrice
corrélation comme suit:
Soit R−1 = (vij ) (i, j ∈ {1, · · · , p}) la matrice inverse de la matrice
de corrélation R = (rij ), alors la matrice de corrélation partielle est
Rp = (aij ) (i, j ∈ {1, · · · , p}) tel que:
vij
aij = − √
vii × vjj
32 / 68
ACP

• Indice KMO global
L’indice KMO est définit par la formule suivante:
Pp Pp 2
i=1 j6=i rij
KM O = Pp Pp 2
P p Pp 2
i=1 j6=i rij + i=1 j6=i aij
KM O ∈ [0, 1], généralement une valeur de KMO de:

• moins de 0.5 est inacceptable
• 0.5 est misérable
• 0.6 est médiocre
• 0.7 est moyenne
• 0.8 est méritoire
• 0.9 est merveilleuse
33 / 68
ACP
• Indice KMO par variable

L’indice KMO pour chaque variable Xj est donné comme suit:
Pp 2
i6=j rij
KM Oj = Pp 2
P p 2
i6=j rij + i6=j aij
Cet indice est utilisé pour détecter les variables qui se détachent des
autres (les variables dont la corrélation partielle reste proche de la
corrélation brute)
⇒ plus l’indice KM Oj est faible, plus la variable Xj est faiblement
liée globalement aux autres.
34 / 68
Nuage des individus NI
35 / 68
Chaque individu Ii , i ∈ {1, 2, ..., n} est un élément de Rp
Figure 1: Nuage des individus NI dans Rp
36 / 68
Ajustement du nuage des individus sur une droite U1 :
Figure 2: Ajustement du Nuage des individus NI
37 / 68
Ajustement du nuage des individus sur une droite U1 :

Objectif :
On cherche l’axe u1 passant le mieux possible au milieu du nuage NI :
c-à-d on cherche à trouver u1 tel que l’inertie du nuage NI projeté sur
u1 soit maximum ,
n
1X
OHi2
n
i=1
Ce qui revient à minimiser:

n
1X 2
I(NI , u1 ) = d (Ii , Hi )
n
i=1
u1 ⇒ Axe d’inertie maximum.
38 / 68
On a :
d2 (O, Ii ) = d2 (O, Hi ) + d2 (Hi , Ii )
On déduit:
n n n
1X 2 1X 2 1X 2
d (O, Ii ) = d (O, Hi ) + d (Hi , Ii )
n n n
i=1 i=1 i=1
Inertie totale = Inertie expliquée par U1 + Inertie résiduelle

(Maximiser) (Minimiser)
39 / 68
Ajustement du nuage des individus sur un plan P :
Objectif:
Pn 2
Trouver un plan P tel que i=1 OHi soit maximum.
Avec u1 ⊥ u2
P ⇒ Plan d’inertie maximum.
40 / 68
Cas général: Ajustement du nuage des individus sur un éspace
FK de dimension K:
Objectif:
Trouver une suite d’axes {us , s = 1, ..., K} orthogonaux d’inertie
maximum.
Avec us est un vecteur unitaire de l’axe de rang s.
Soit His la projection de Ii sur us
Donc on cherche us tel que ni=1 (OHis )2 soit maximum.
P
Avec la contrainte ut ⊥ us pour t < s

Solution:
us est vecteur propre unitaire de la matrice de corrélation R associé à
la valeur propre λs de rang s .
41 / 68
Définition 0.3
Les K axes factoriels {us , s = 1, ..., K} sont appelées les facteurs
principaux.
42 / 68
Exemple:
Pour K = 1 ⇒ Ajustement du nuage sur une droite F1 = U1
Dans ce cas, on a:
• L’axe U1 passe par le centre de gravité G = O du nuage de points
NI .
• L’axe U1 est engendré par le vecteur normé u1 , vecteur propre de la
matrice des corrélations R associé à la plus grande valeur propre λ1 .
• L’inertie expliquée par l’axe U1 est égal à λ1 .
• La part d’inertie expliquée par le premier axe principal U1 est égal à
λ1
p .
Remarquons que p est aussi égal à la somme des valeurs propes de la
matrice de corrélation R.
43 / 68
Pour K = 2 ⇒ Ajustement du nuage sur un plan
F2 = P = (U1 × U2 )
• U1 et U2 forment le même plan P

• U2 perpendiculaire à U1
• Le deuxième axe principal U2 passe par le centre de gravité G = O
du nuage de points et engendré par le vecteur normé u2 , vecteur
propre de la matrice des corrélations R associé à la deuxième plus
grande valeur propre λ2 .
• U2 est centrée, de variance λ2 , et non corrélée avec U1 .
• L’inertie expliquée par l’axe U2 est égal à λ2 .
• L’inertie expliquée par le plan P = (U1 × U2 ) est égal à λ1 + λ2
• La part d’inertie expliquée par le plan P = (U1 × U2 ) est égal à
λ1 +λ2
p .
44 / 68
Nuage des variables Nv
45 / 68
On peut envisager le problème de la représentation des variables de
façon complètement symétrique de celui des individus.
Ainsi, chaque variable Xj , j ∈ {1, 2, ..., p} est un élément de Rn .
La représentation du nuage Nv des variables se situe dans un espace à
n dimensions, chaque dimension représentant un individu de la
population totale.
Figure 3: Nuage des variables Nv dans Rn

46 / 68
Le fait que:
• Les données sont centrées ⇒ Cor(Xj , Xk ) = cos(θkj )
• Les données sont centrées réduites ⇒ ||Xj || = 1
47 / 68
Ajustement du nuage des variables Nv :
On cherche ici à obtenir des variables synthétiques {vs , s = 1, ..., K}
et une représentation approchée des corrélations entre les variables.
48 / 68
Soitent:
vs un vecteur unitaire de la direction de rang s
Xj représentation de la variable Xj dans Rn
Hjs la projection de Xj sur vs
Pp s 2
L’objectif est de trouver le vecteur vs tel que: j=1 (OHj ) soit
maximum.
avec la contrainte vl ⊥ vs pour l < s
Et on a:
p
X p
X p
X
s 2 s 2
(OHj ) = (cos(θj )) = Cor(Xj , vs )2
j=1 j=1 j=1
La coordonnée d’une variable initiale Xj sur vs est son coefficient de

corrélation avec vs
49 / 68
Le vecteur vs définit une nouvelle variable qui est la combinaison

linéaire la plus liée à l’ensemble des variables initiales du tableau X.
Ainsi les K vecteurs {vs , s = 1, ..., K} étant orthogonaux deux à
deux, les K nouvelles variables correspondantes sont non corrélées
entre elles.
Définition 0.4
Les K nouvelles variables (axes factoriels) {vs , s = 1, ..., K} sont
appelées les composantes principales.
Remarque:
La variance d’une composante principale est égale à l’inertie portée
par l’axe principale qui lui est associé.
50 / 68
Remarques:
On suppose toujours que le tableau X est centré-réduit, on a:

• Les vecteurs {us , s = 1, ..., p} sont des vecteurs propres de la
matricePde corrélation R associés aux p valeurs propres {λ1 , ..., λp },
et on a ps=1 λs = p = nombre des variables Xj
• Les K vecteurs propres {u1 , ..., uK } correspondant aussi aux K
0
plus grandes valeurs propres {λu1 , ..., λuK } de la matrice X X.
• Les K vecteurs propres {v1 , ..., vK } correspondant aux K plus
0
grandes valeurs propres {λv1 , ..., λvK } de la matrice XX .
0
• Les K (avec K ≤ p) premiers valeurs propres des matrices X X et
0
XX sont les mêmes, c-à-d λu1 = λv1 , ..., λuK = λvK .
λus λvs
• λs = n = n , s = 1, ..., K
(Dans la dernière remarque: si la variance utilisée pour réduire la
matrice X est la variance corrigée, alors le dénominateur est égal
à n-1 !!!!)
51 / 68
Représentation simultanée
52 / 68
Relation entre les axes d’inertie et les facteurs des deux nuages:
Dans la suite on montre les relations de transition entre les

ajustements dans les deux espaces.
On note que:
0 0
λUs = us X Xus l’inertie le long de l’axe Us .
0 0
λVs = vs XX vs l’inertie le long de l’axe Vs .
Fs = Xus le facteur d’ordre s de NI .
0
Gs = X vs le facteur d’ordre s de Nv .
Fs est donc le vecteur issu de la projection du nuage NI sur le s-ème
axe dans Rp .
De même Gs est le vecteur issu de la projection du nuage Nv sur le
s-ème axe dans Rn .
53 / 68
Proposition 0.5
L’inertie le long de l’axe Us (c-à-d λUs ) est égale à l’inertie le long
0
de l’axe Vs (c-à-d λVs ) nous la notons dans suite par λs .
Les formules de transition entre les deux espaces Rp et Rn sont
données par les relations suivantes :

 vs = √Fs 0
λs
 us = √Gs0
λs
54 / 68
Proposition 0.6
Les relations de transitions entre les facteurs s’écrivent :

X p

√1
 Fs (i) = λ0s xij Gs (j)



j=1
n
X
 1

G
 s
 (j) = √ xij Fs (i)
λ0s

i=1
Cette proposition montre que les facteurs des deux nuages doivent
s’interpréter conjointement. Donc on cherche à analyser
simultanément le nuage NI et le nuage Nv .
55 / 68
56 / 68
Choix de nombre d’axe
Le but de l’ACP étant d’obtenir une représentation des individus dans
un espace de dimension plus faible que p, la question se pose
d’apprécier la perte d’information subie et de savoir combien de
facteurs à retenir.
Pour choisir le nombre d’axe à retenir, on utilise les critères suivant:
• Critère de Kaisser:
On ne retient que les axes dont l’inertie est supérieur à 1 ( inertie
moyenne)
• Critère du coude:
Sur l’éboulis des valeurs propres, on observe un décrochement
(coude) suivi d’une décroissance régulière. On sélectionne les axes
avant le décrochement.
• Pourcentage d’inertie:
Le pourcentage d’information expliqué par les axes doit être
suffisamment grand (par exemple supérieur à 60-70%)
57 / 68
Choix de nombre d’axe
Éboulis des valeurs propres:
58 / 68
Qualité de représentation
Qualité de représentation d’un individu Ii par un axe s:
La qualité de représentation d’un individu Ii par l’axe s est donnée

par le rapport de l’inertie de la projection de l’individu Ii sur l’axe s
et de l’inertie totale de l’individu Ii :
(OHis )2
QLTs (Ii ) = = cos2 (θ) (1)
(OIi )2
Où θ est l’angle entre OIi et l’axe s.
Ainsi si QLTs (Ii ) est proche de 1, alors Ii est proche de l’axe s et
donc du plan de projection contenant l’axe s.
59 / 68
Qualité de représentation d’une variable Xj par un axe s:
La qualité de représentation d’une variable Xj par l’axe s est donnée

par le rapport de l’inertie de la projection de la variable Xj sur l’axe s
et de l’inertie totale de la variable Xj :
(OHjs )2
QLTs (Xj ) = = cos2 (θ) = cor(Xj , vs )2 (2)
(OXj )2
Où θ est l’angle entre OXj et l’axe s.
Si QLTs (Xj ) est proche de 1, alors la variable Xj est bien

représentée sur l’axe s.
Si QLTs (Xj ) est proche de 0, alors la variable Xj est mal représentée
sur l’axe s.
60 / 68
Qualité de représentation du nuage des indivivus NI par un axe s:
Cette qualité est donnée par le pourcentage d’inertie associé à un axe

s, c’est-à-dire le rapport de l’inertie de la projection du nuage NI sur
l’axe s et de l’inertie totale du nuage :
Pn
(OHis )2
QLTs (NI ) = Pi=1 n 2
(3)
i=1 (OIi )
Cette qualité mesure l’importance d’un axe factoriel. Bien sûr les
premiers axes auront plus d’importance que les suivants.
Plus cette qualité est proche de 1, plus le nuage de points NI est
concentré autour de l’axe s.
61 / 68
Qualité de représentation du nuage des variables Nv par un axe s:
Cette qualité est donnée par le pourcentage d’inertie associé à un axe

s, c’est-à-dire le rapport de l’inertie de la projection du nuage Nv sur
l’axe s et de l’inertie totale du nuage :
Pp s 2
j=1 (OHj )
QLTs (Nv ) = Pp 2
(4)
j=1 (OXj )
62 / 68
Contribution
Contribution d’un individu Ii à l’inertie d’un axe s:
La contribution d’un individu Ii à l’inertie d’un axe s est donnée par

le rapport de l’inertie de la projection de Ii sur l’axe s et de l’inertie
de la projection de l’ensemble du nuage NI sur l’axe s :
(OHis )2
CTs (Ii ) = Pn s 2 (5)
i=1 (OHi )
La contribution est importante si elle est proche de 1.
63 / 68
Contribution
Contribution d’une variable Xj à l’inertie d’un axe s:
La contribution d’une variable Xj à l’inertie d’un axe s est donnée

par le rapport de l’inertie de la projection de Xj sur l’axe s et de
l’inertie de la projection de l’ensemble du nuage Nv sur l’axe s :
(OHjs )2
CTs (Xj ) = Pp s 2 (6)
j=1 (OHj )
64 / 68
Interprétation
Dans la suite, on va définir quelques règles pour interpréter les
résultats d’une ACP:
• Pour tout k et l tel que k 6= l, la projection du nuage NI sur le plan
principal engendré (uk , ul ) est appelée carte des individus.
• Pour tout k et l tel que k 6= l, la projection du nuage Nv sur le plan
principal engendré par (vk , vl ) est appelée carte des variables.
• Un individu sera du côté des variables pour lesquelles il a de fortes
valeurs, inversement il sera du côté opposé des variables pour
lesquelles il a de faibles valeurs.
• Plus les valeurs d’un individu sont fortes pour une variable plus il
sera éloigné de l’origine suivant l’axe factoriel décrivant le mieux
cette variable.
• Deux individus à une même extrémité d’un axe (c-à-d éloignés de
l’origine) sont proches (se ressemblent).
• Deux variables très corrélées positivement sont du même côté sur
un axe. 65 / 68
Exemple
Etudiant Math Stat Fran Angl Musique

I1 6 6 5 5,5 8
I2 4,5 5 7 7 14
I3 6 7 11 9,5 11
I4 14,5 14,5 15,5 15 5
I5 14 14 12 12,5 6
I6 16 15 5,5 5 7
I7 5,5 7 14 11,5 10
I8 13 12,5 8,5 9,5 12
I9 6 8,5 13,5 13 18
66 / 68
Exemple
Carte des variables:
67 / 68
Exemple
Carte des individus:
68 / 68

Cours ACP Ouazza

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours ACP Ouazza

Uploaded by

Copyright:

Available Formats

Analyse Des Données

Institut National de Statistique et d’Economie Appliquée

2 Analyse en Composante Principales ACP

3 Analyse Factorielle des Correspondances AFC

5 Analyse des Correspondances Multiples ACM

• Dans toute étude statistique, la première démarche consiste à décrire

On suppose qu’on dispose p variables X1 , X2 , ..., Xp observées sur n

La forme matricielle du tableau précédent est donnée comme suit:

Tableau de données: (Variable × Variable)

Dons ce cas, on cherche à croiser deux variables X et Y d’une

X\Y y1 ... yj ... yK

• Analyse en composante principale ACP est une technique des

• L’ACP permet de réduire la dimension de l’espace des variables

Les données pour l’ACP sont généralement présentées sous la forme

Etudiant Math Stat Fran Angl Musique

On affecte à chaque individu Ii un poids pi reflétant P

Matrice des poids:

De la même manière, on peut définir la matrice des poids pour les

Donc on parle d’une notion de proximité qui se traduit par une

Par exemple, dans le plan, la distance euclidienne entre deux points A

Transformation des données (Problèmes des unités de mesure) :

Parfois, les variables contenues dans le tableau X peuvent être

X1? ... Xj? ... Xp?

La matrice de covariance associée au tableau X est donnée par:

Dans le cas où le tableau X est centré, la matrice de covariance

La matrice de corrélation associée au tableau X est donnée par:

Si on pose D 1 = diag( S11 , ..., S1p ), alors

Où Sj est l’écart-type de la variable Xj . Remarquons que Sj = 1 si le

• On appelle inertie la quantité d’information contenue dans un

L’inertie est aussi égale à la somme des variances des variables

Dans le cas où X est centré-réduit on a:

Dans l’ACP, on peut définir deux types de nuages de points:

1) Nuage des individus NI

2) Nuage des variables Nv

Dans la suite, on suppose que le tableau des données X est

Avant de réaliser une ACP, on doit:

On utilise deux critères:

Test de sphéricité de Bartlett

Le test de sphéricité de Bartlett vérifie l’hypothèse nulle selon

Test de sphéricité de Bartlett

Test de sphéricité de Bartlett

Indice KMO (Kaiser – Mayer – Olkin)

KMO (ou MSA: Measure of sampling adequacy)est un indice

Indice KMO (Kaiser – Mayer – Olkin)

• Si la corrélation partielle est très faible en valeur absolue (' 0),

Indice KMO (Kaiser – Mayer – Olkin)

Indice KMO (Kaiser – Mayer – Olkin)

KM O ∈ [0, 1], généralement une valeur de KMO de:

Indice KMO (Kaiser – Mayer – Olkin)

• Indice KMO par variable

Figure 1: Nuage des individus NI dans Rp

Ajustement du nuage des individus sur une droite U1 :

Figure 2: Ajustement du Nuage des individus NI

Ajustement du nuage des individus sur une droite U1 :

Ce qui revient à minimiser:

u1 ⇒ Axe d’inertie maximum.

Inertie totale = Inertie expliquée par U1 + Inertie résiduelle

Avec la contrainte ut ⊥ us pour t < s

• U1 et U2 forment le même plan P

Figure 3: Nuage des variables Nv dans Rn

La coordonnée d’une variable initiale Xj sur vs est son coefficient de

Le vecteur vs définit une nouvelle variable qui est la combinaison

On suppose toujours que le tableau X est centré-réduit, on a: