Cours de l'ACP

Université IBN ZOHR
Ecole Nationale de Commerce et de Gestion Dakhla
ANALYSE factorielle des

données
Lahoucine Assellam
1/31
31 octobre 2020
Plan
Chapitre.1: analyse en composantes principales

Chapitre.2:Analyse factorielle des correspondances
Chapitre.3Analyse discriminante des données
Chapitre.4: classification
Université IBN ZOHR
Ecole Nationale de Commerce et de Gestion Dakhla
ANALYSE EN COMPOSANTES
PRINCIPALES
Support de cours
Lahoucine Assellam
3/31
30 octobre 2020
introduction
Qu'est-ce que l'analyse factorielle? A quoi çà sert?

On utilise le terme générique d'analyse factorielle pour parler de deux types d'analyse ayant de nombreux
liens de parenté mais légèrement différentes: l'analyse en composantes principales et l'analyse factorielle
proprement dite. Avant d'examiner les différences entre ces deux types d'analyse, il est pertinent de voir
les points communs à la famille des analyses factorielles.
L'analyse factorielle cherche à réduire un nombre important d'informations (prenant la forme de valeurs
sur des variables) à quelques grandes dimensions. Comme dans toute analyse statistique, on tente donc
d'expliquer la plus forte proportion de la variance (de la covariance dans le cas de l'analyse factorielle) par
un nombre aussi restreint que possible de variables (appelées ici composantes ou facteurs). On utilise le
terme de variables latentes pour parler de ces variables qui existent au plan conceptuel seul et qui ne sont
pas mesurées.
introduction
Qu'est-ceque l'analyse factorielle? A quoi çà sert?

Exemple:
- De façon à mesurer la satisfaction des gens face à leur travail, j'ai d'abord déterminé que
celle-ci portait sur trois grandes dimensions: la qualité des relations interpersonnelles, la
nature même du travail et les aspects extrinsèques (salaire, horaire,...).
-Pour chacune des dimensions, j'ai posé quatre (4) questions du type:
- "Etes-vous très satisfait, assez satisfait, peu satisfait ou pas du tout satisfait
a) de la qualité de vos relations avec vos collègues.
b) de la qualité de vos relations avec vos supérieurs,
c) de la qualité de vos relations avec vos subordonnés
d) de la qualité générale des relations interpersonnelles à votre travail...
introduction
Qu'est-ce que l'analyse factorielle? A quoi çà sert?

- En agissant ainsi, je suppose qu'une dimension générale de satisfaction face au climat des relations
interpersonnelles existe et que le positionnement des individus face à cette dimension "explique",
"prédit" leur positionnement sur chacune des "variables mesurées".
- Si cette hypothèse est vraie, les personnes auront tendance à répondre de la même manière aux
quatre questions portant sur cette dimension et leurs réponses à ces questions seront plus corrélées
entre elles qu'avec les autres variables pour lesquelles on demande leur degré de satisfaction.
- Cette perspective suppose aussi que l'on conçoit que les variables mesurées constituent un
échantillon de l'ensemble des variables aptes à mesurer le concept choisi.
L'analyse factorielle tente de donner un sommaire des patrons de corrélations entre les variables. Elle
tente de décomposer les patrons de corrélations pour les expliquer par un nombre restreint de
dimensions. Elle est souvent utilisée comme méthode d'analyse exploratoire en vue de créer des
échelles.
ANALYSES FACTORIELLES : PRINCIPE DE REPRÉSENTATION GÉOMÉTRIQUE
Le but des analyses factorielles est de résumer de grands tableaux numériques en

diminuant leur nombre de colonnes (passant de p colonnes à q « axes factoriels » les
résumant). p
q
n
Les tableaux peuvent être vus comme un ensemble de lignes ou de colonnes. Par convention,
· En lignes figurent les individus, en colonnes figurent les variables. deux nuages de points peuvent
alors être construits :
· Le nuage des individus (les points-lignes) qui opère dans un espace dont le nombre de dimensions (le
nombre d'axes) est égal au nombre de variables
· Le nuage des variables (les points-colonnes) qui opère dans un espace dont le nombre de dimensions
(le nombre d'axes) est égal au nombre d'individus
8
Les données sont les mesures effectuées sur n unités {}. Les p variables
quantitatives qui représentent ces mesures sont, d’où l’écriture
matricielle suivante du tableau de données : u1....,ui.........,un
v1....,vi,.........,vp
La ligne i décrit la valeur prise par l’individu pour p valeurs, alors que la
colonne j décrit la valeur de la variable pour n individus. iujv
1. Historique des analyses factorielles
Les expressions « facteurs » et « analyse factorielle » sont d’ailleurs très mal choisies puisqu’on obtient non
pas des facteurs explicatifs mais des résumés descriptifs et qu’il ne s’agit pas d’analyse mais de synthèse :
c’est l’histoire qui explique ce contresens.
Des psychomètres au début du 20ième siècle (Pearson, 1900) ont mis au point les premières analyses
factorielles. Ils cherchaient, « cachées » derrière les résultats d’individus à des tests variés, des mesures de
capacité intellectuelle (intelligence, mémoire, …) qu’ils ont nommées « facteurs » sous-jacents, explicatifs
des résultats fournis par les tests psychologiques.
Avant la 2eme guerre mondiale, des statisticiens (Hotelling, Thurstone, 1934) ont repris ces travaux dans
une perspective descriptive, mettant au point l’analyse en composantes principales (A.C.P.), adaptée au
résumé, à la synthèse de variables quantitatives.
Après la 2eme guerre mondiale, un statisticien français (J.P.Benzecri, 1957) a adapté, sous le nom
d’analyse factorielle des correspondances (A.F.C.), cette méthode à la synthèse de tableaux composés de
variables qualitatives, fréquemment issues d’enquêtes (comme les tableaux de contingence).
Type de questions auxquelles l'analyse factorielle permet de
répondre
- Combien de facteurs sont nécessaires pour donner une représentation juste des
données?
- Quelle est la nature de ces facteurs, comment peut-on les interpréter?
- Quelle proportion de la variance des données peut être expliquée par un certain
nombre de dimensions (facteurs) majeures?
- Jusqu'à quel point la solution factorielle est conforme à la théorie que je voulais
vérifier?
- La structure factorielle est-elle la même pour divers groupes?
- Quel score auraient obtenu les sujets si on avait pu mesurer les facteurs?
répondre
On cherche à extraire l’information pertinente contenue dans le
tableau des données. Pour cela, on va le résumer en extrayant
l’essentiel de sa structure en vue de faire des représentations
graphiques à la fois fidèles aux données initiales et commodes à
interpréter. Ces représentations devront se faire en dimension
réduite.
Comment ?
répondre
On cherche des combinaisons linéaires des variables initiales,
appelées composantes principales, s’écrivant sous la forme
suivante :
Telles que
•C1 doit contenir un maximum d’information, c’est-à-dire disperser le plus
possible les individus.
•R (C1,C2) = 0 la condition de perpendicularité des axes 1 et 2, c’est-à-dire que
la deuxième composante principale doit contenir l’information complémentaire
de la première.
répondre
La variance de C2 doit être, à son tour, la plus grande possible. Ainsi,
cette deuxième composante principale fournit la plus grande
information possible complémentaire à la première.
Le processus se déroule jusqu’à l’obtention de la dernière composante
principale ( la èmep), les parts d’informations expliquées par chacune
d’elles devenant de plus en plus faibles.
la phase essentielle de L’ACP consiste à transformer ces p variables
quantitatives initiales, toutes plus ou moins corrélées entre elles, en p
nouvelles variables quantitatives, non corrélées, appelées composantes
principales.
Type de questions auxquelles l'analyse factorielle permet de répondre
Les données sont soit considérées en tant qu'individus décrits par leurs p
variables, soit en tant que variables décrites par les n individus, d’où
l’importance de la considération des deux nuages de points. Nous obtenons
ainsi n points dans l’espace Rp, espace des variables et p points dans l'espace
Rn celui des individus.
Mais le problème est de visualiser la forme des nuages, pour ce faire l'idée est
d'étudier les projections sur des droites, des plans ou plus généralement sur
des sous espace de dimension réduite s < p. Il faut donc chercher le sous-
espace qui ajuste au mieux le nuage de points i.e. chercher à minimiser les
déformations provoquées par la projection.
Nous allons donc chercher à ajuster au mieux le nuage des individus dans
l'espace des variables puis le nuage des variables dans l'espace des individus
Analyse en composantes principales et analyse factorielle
- L'analyse en composantes principales (ACP) cherche une solution à l'ensemble de

la variance des variables mesurées. De plus, elle cherche une solution où les
composantes sont orthogonales (c'est-à-dire indépendantes entre elles). Quelque
soit la matrice de corrélations, il y a toujours une solution en ACP. Cette dernière
maximise la variance expliquée.
- L'analyse factorielle (A.F.) cherche une solution à la covariance entre les variables
mesurées. Elle tente d'expliquer seulement la variance qui est commune à au moins
deux variables et présume que chaque variable possède aussi une variance unique
représentant son apport propre.
Les divers modes d'extraction visent à maximiser une bonne reproduction de la
matrice de corrélations originale.
Considérations théoriques et pratiques
-Pour qu'une variable soit intégrée dans l'analyse, sa distribution doit

montrer une certaine variance. elle doit discriminer les positions des
individus.
-Idéalement, on cherche une structure simple, c'est-à-dire une solution où

chaque variable détermine fortement un et un seul facteur.
- Lorsqu'une variable est corrélée à plus d'un facteur, on dit que c'est une
variable complexe; on peut dire que la signification des réponses à cette
variable s'interprète selon plusieurs dimensions.
- La structure factorielle peut être différente pour différentes populations. Il faut

faire attention à ne pas regrouper pour l'analyse des populations trop
différentes.
- Pour qu'une structure factorielle soit stable, elle doit avoir été vérifiée sur un
minimum de cas.
La règle veut qu'il y ait un minimum de 5 cas par variable. Lorsque cette règle
n'est pas
respectée, plusieurs problèmes peuvent survenir dont celui de la "matrice
malade" (illconditioned matrix) ou le fait qu'une deuxième analyse avec une
population différente donne des regroupements très différents. Il y a donc des
problèmes de stabilité, de fidélité, de la solution factorielle.
- Les variables utilisées pour l'analyse devraient se distribuer normalement.

Toutefois,
lorsqu'on utilise l'analyse factorielle uniquement comme outil exploratoire, il est
possible de "transgresser" cette règle. Il faut alors utiliser une procédure
d'extraction (Moindres carrés) qui tient compte du fait que la distribution des
variables n'est pas normale. Si le but de l'analyse est l'inférence, le postulat de
normalité est plus important et certaines transformations normalisant la
distribution peuvent être effectuées.
-La relation entre les paires de variables est présumée linéaire.
- On devrait idéalement repérer et éliminer les cas ayant des patrons de
réponses "anormaux« (Cas aberrants)
- La matrice de corrélation ne peut pas être singulière pour ce qui

est de l'AF pure. Ceci signifie que les variables ne peuvent pas être
à ce point corrélées entre elles qu'une variable constitue une
combinaison linéaire d'une ou plusieurs autres variables; il y a
alors redondance, c'est-à-dire que la même information est inscrite
à deux reprises. Mathématiquement, les produits de matrices
nécessaires à l'estimation ne peuvent être effectués dans une telle
situation.
- La matrice de corrélation doit contenir un patron, une solution factorielle.

Certains ensembles de variables doivent être corrélés entre eux, suffisamment
pour qu'on puisse dire qu'ils constituent un facteur. La solution factorielle
doit aussi expliquer une proportion suffisamment intéressante de la variance
pour que la réduction à un nombre restreint de facteurs ne se fasse pas au
prix d'une perte importante d'information.
- Toutes les variables doivent faire partie de la solution c'est-à-dire être
corrélées minimalement avec une ou plusieurs variables, sinon elles
constituent des cas aberrants et doivent par conséquent être retirées de
l'analyse.
Avec la conditionde…
G ARDER LE MAXIMUM
D’INFORMATION POSSIBLE
Présentation de l’A.C.P.
L’A.C.P est proposée pour la première fois par Pearson en 1901, elle est ensuite intégrée `a
la statistique mathématique par Hotelling en 1933. L’A.C.P. peut être considérée selon
différents points de vue. La présentation la plus fréquente dans la littérature francophone est
géométrique. L’A.C.P est alors vue comme une technique visant a représenter de façon
optimale des données, selon certains critères géométriques et algébriques. Le lecteur pourra
se reporter à l’ouvrage de Lebart et al. (1997).
Un tableau numérique peut se représenter par un nuage de points
Ce sous espace est de dimension nettement inférieure, idéalement de dimension 2 de façon à

pouvoir le représenter graphiquement.
prenant l’exemple du tableau à 96 lignes (individus) et 2 colonnes (taux de natalité et de

mortalité), résumer ce nuage de dimension 2 consiste à le projeter « le mieux possible » sur
une droite (espace de dimension 1). Puisqu’aucune des 2 variables n’est pas privilégié par
rapport à l’autre, la projection des points se fera perpendiculairement à cette droite
« optimale » qu’on appellera axe factoriel et qui représente l’axe de plus grand allongement du
nuage de points.
Figure 1.1: Projection des points d’un plan perpendiculairement à un axe factoriel
Résumer ce nuage de points : le projeter sur un sous espace
Lorsqu’il n’y a que deux dimensions Avec trois dimensions (largeur,

(largeur et longueur par exemple), il est hauteur et profondeur par ex.),
facile de représenter les données sur un c’est déjà plus difficile :
plan :
Mais au delà de 3 dimensions, il est impossible de représenter les données

sur un plan ou même de les visualiser mentalement.
exemple: un tableau ayant 96 lignes (individus) et 2 colonnes (par exemple taux de
natalité, taux de mortalité) sera représenté graphiquement par un nuage de 96 points-
individu définis par leurs coordonnées sur deux axes perpendiculaires (l’un
représentant le taux de natalité, l’autre le taux de mortalité). Ce graphique est un
nuage de 96 points dans un espace géométrique de deux dimension (un plan). Si le
tableau comporte non plus 2 colonnes mais 4 (en ajoutant, par exemple, taux de
fécondité et taux de mortalité infantile), on ne peut plus visualiser directement le nuage
des 96 points-individu dans l’espace géométrique de dimension 4 mais, s’il n’existe
plus graphiquement, cet espace existe algébriquement.
Plus généralement, une matrice d’information de n lignes et p colonnes est un nuage
de n points-individus dans un espace défini par p axes orthogonaux (les p colonnes de
la matrice d’information).
Exemple_1
Quelle forme a ce nuage de point ( reconnaissance de forme) ?

Représentation des différents plans :
Plan X-Y
27
Exemple_1
Plan Y-Z
28
Exemple_1
Plan X-Z
Quel est le meilleur plan de représentation ? Est-ce l'un des précédents ?

29
Exemple_1
Graphique factoriel
30
Exemple_2
Projeter la réalité sur un plan

Exemple_2
Projeter la réalité sur un plan
L’ACP nous propose un point de vue permettant de voir au mieux les

individus d’un tableau.
Axes factoriels
Trouver la droite des moindres carrés la mieux ajustée à l’ensemble des points du
nuage consiste à chercher celle qui minimise la somme des (A,A’)² ou, ce qui
revient au même, celle qui maximise la somme des (0,A’)² : l’axe factoriel F1 est
donc le principal axe d’allongement du nuage de points, celui qui prend en
compte le plus possible de sa variance.
Figure : minimiser (A,A’)² = maximiser (0,A’)²

L'inertie comme somme des distances des points d'un nuage
Les tij sont donc numériques.

Définition 1 : l'inertie est la somme des carrés des distances qui
relient chaque point du nuage à un point quelconque de l'espace.
34
Définition d’un Vecteur
la notion de vecteur est le fondement de la branche des mathématiques appelée algèbre linéaire. À ce
sens, un vecteur est un élément d'un espace vectoriel, ce qui permet d'effectuer des opérations
d'addition et de multiplication par un scalaire.
vecteur peut être représenté par un flèche:
Axes factoriels
Qu'est-ce qu'une projection (orthogonale) ?
47
Axes factoriels
Qu'est-ce qu'une projection (orthogonale) ?
48
Axes factoriels
Quelles directions peuvent être intéressantes ?
49
Axes factoriels
Quelles directions peuvent être intéressantes ?
50
Axes factoriels
Maximiser l'inertie projetée, c'est rendre maximale la somme des distances

entre les projections de chaque point du nuage…
On cherche un sous-espace vectoriel (un ensemble de vecteurs, c'est-à-
dire un ensemble de directions) qui permette de rendre maximale
l'inertie projetée dans ce sous-espace. Ces axes doivent être les directions
d'étirement maximal du nuage de points.
51
Axes factoriels
a - les distances entre individus ?

Axes factoriels
les plans de projection
Axes factoriels
les plans de projection
b - les plans de projection

Axes factoriels
Droite d'ajustement
Axes factoriels
La projection OHi de Oi sur le sous-espace à une
dimension d1 porté par u1 est le produit scalaire de Oi par
u1. Ainsi en munissant cet espace de la métrique
euclidienne sans restreindre le problème :
Les composantes OHi sont donc les composantes de la matrice
Xu1, et donc :
Le problème revient donc à trouver u1 qui maximise la forme

quadratique u’1X'Xu1 avec la contrainte u’1u1=1. Le sous-espace à
une dimension optimal au sens de l'inertie maximale est donc l'axe
F défini par le vecteur u1 solution de ce problème.
Plan d'ajustement
Cherchons maintenant à déterminer le sous-espace à
deux dimensions s'ajustant au mieux au nuage NI ,
nous considérons donc le cas où S = 2.
Théorème: Le plan expliquant le mieux le nuage de

points ni (au sens des moindres carrés) contient
nécessairement le vecteur u1
Plan d'ajustement
Recherche de sous-espaces à deux dimensions
Cherchons maintenant à déterminer le sous-espace à deux
dimensions s’ajustant au mieux au nuage ni, nous considérons donc
le cas où s = 2. ce sous-espace qui contient u1 est caractérisé par l’axe
F1 et l’axe F2 défini par le vecteur u2 orthogonal à u1 vérifie que:
u2'X'Xu2soit maximum
u2'u2 = 1 (contraint de normalité)
u2'u1 = 0 (contraint d’orthogonalité)
sous-espaces d'ajustement
Recherche de sous-espaces optimaux.
Par récurrence, le sous-espace à s dimensions s’ajustant au mieux
au nuage ni contient les vecteurs u1....,ui,.........,us-1. Ce sous-
espace est engendré par le sous-espace {u1....,ui,.........,us-1} de
dimension s-1 et le vecteur s orthogonal à ce sous-espace, et
vérifiant que :
us'X'Xussoit maximum
us'us= 1
Sous-espace d'ajustement
Proposition
Une base orthonormée du sous-espace vectoriel de dimension S,

s'ajustant au mieux au sens des moindres carrés, au nuage NI
dans IRk est constituée par les S vecteurs propres (u1; u2; ; uS)
correspondant aux S plus grandes valeurs propres (1; 2; ; S) de
la matrice Xt X.
Preuve
On utilise la méthode de Lagrange pour vérifier que utXtXu
est maximal
Définition :
Les s nouvelles variables sont appelées composantes principales,
c’est celles qui résument donc l'ensemble des variables initiales du
tableau X. v1...,vj,.........,vs
Le programme de maximisation s'écrit alors :
Le maximum est atteint si landa est la plus grande valeur propre de la

matrice X’ X. 64
Mais après avoir visualiser les données brutes dans des espaces de dimension
réduite par projection, comment peut-on théoriquement retrouver les données
initiales ?
Bien entendue, il est possible de reconstruire de manière exacte le tableau de
données X par une décomposition en valeurs singulières de la matrice X. En
effet, puisque est le sème vecteur propre de norme 1 de la matrice X’X,
correspondant à la sème valeur propre, et est le sème vecteur propre de norme
1 de la matrice XX’ correspondant à la même valeur propre, nous avons :
S’ajuster au mieux signifie donc reconstituer au mieux les positions des points des nuages
par un nouvel ensemble de coordonnées
problème
La difficulté majeur réside dans le choix de s, c’est-à-dire à partir

de quelle valeur a-t-on une bonne reconstruction, ou encore une
bonne proportion de la trace de XX t
Indice de qualité de la reconstruction :
La qualité globale de la reconstruction peut être mesurée par :
Ce coefficient est appelé taux d’inertie ou pourcentage de la variance

relatif aux s premiers facteurs. Un repère formé par les s premiers axes
factoriels permet de reconstituer les positions de départ avec une bonne
précision, si la somme des s valeurs propres associées représente une
bonne proportion de la trace de la matrice X’X. Nous obtenons ainsi une
reconstruction approchée du tableau X en se limitant aux s premiers axes
factoriels.
Axes factoriels
Si l’on reprend maintenant l’exemple du tableau à 96 lignes et 4 colonnes, on construira de la
même façon un 1er axe factoriel. Considérant les écarts entre les points et cet axe (résidus du 1er
axe factoriel), on peut de la même manière extraire F2, un 2ième axe factoriel, perpendiculaire au
1er , de variance et d’allongement moindres. Le nuage de 96 points dans l’espace de dimension
4 aura ainsi été projeté sur le plan défini par les axes factoriels 1 et 2 et pourra être visualisé
graphiquement (comme tout nuage de dimension 2). On pourrait même extraire un 3ième axe
factoriel s’il apparaissait qu’il subsiste des résidus importants.
Figure : F2 calculé sur les résidus de F1 (écarts des points à F1)

Procédure algébrique
Un axe factoriel est un axe d’allongement d’abord du nuage de points puis des résidus par
rapport aux axes factoriels successifs. Chacun minimise la somme des carrés des écarts entre
points et axe factoriel, ce qui revient au même que maximiser la somme des carrés des écarts
entre les coordonnées des points sur l’axe et le point moyen du nuage de points (variance des
coordonnées sur chaque axe factoriel). La variance des coordonnées sur l’axe 1 étant
supérieure à celle sur l’axe 2, etc…, l’axe1 est axe d’allongement majeur, l’axe2 est axe
d’allongement secondaire, etc. Cette variance des projections sur un axe est la quantité
d’information qu’il prend en compte. L’information est la variance, mesurant l’originalité par
rapport aux cas moyens.
Les axes factoriels étant orthogonaux donc indépendants les uns des autres, chacun apporte
une information complémentaire aux autres. Ils se coupent perpendiculairement au point
moyen du nuage de points (de coordonnées X1 , …, X p dans un tableau à p colonnes).
Procédure algébrique
Chaque axe factoriel fait intervenir les p variables du tableau de données

mais avec un poids différent d’un axe à l’autre (indiqués ci dessous par les
coefficients aj et bj).
er
L’équation du 1 facteur peut s’écrire :
F1 = a1 X1 +a2 X 2 + ... + ap X p
Celle du 2ième facteur perpendiculaire au 1er :
F2 = b1 X1 + b2 X 2 + ... + bp X p
Où les Xj représentent les variables initiales et les aj, bj, … leurs poids.
Ce sont les poids (aj, bj, …) des p variables dans la définition des axes
factoriels qui permettront de leur donner une signification thématique.
Ajustement du nuage des variables dans l'espace des
individus
De la même façon que pour le nuage des individus n , nous
cherchons une image du nuage des variables - que nous noterons
p dans Rn . L'approche est identique à celle du nuage des
individus,
Généralisation à des espaces de dimensions quelconques
Le tableau de départ qui sera soumis à une ACP se présente de la façon

suivante :
Il s’agit d’un tableau de données quantitatives, avec les variables en colonnes, les
individus en lignes et les observations à l’intérieur du tableau.
L’objectif de l’ACP est d’analyser l’information contenue dans le tableau, c'est-à-dire
la structure du nuage des individus dans l’espace Rn et des variables dans l’espace RN
.
xij  x j
zij 
 (x j )
- le centrage n’a pas d’influence sur la ressemblance entre individus

- la réduction supprime l’arbitrage des unités et toutes les variables ont
la même influence dans le calcul des distances entre individus
Particularités de ces nouvelles variables :
- les moyennes sont toutes nulles
-les écart types sont égaux à 1
1
cov( z j , zk )  rz j z   zij zik avecj  k
k n
La matrice Z des variables centrées réduites s’écrit alors :
 z1 . zj . z1 p 
. . . . . 

z (n, p )   zi . zij . zip 
 
. . . . . 
 zn . z nj . z np 

L’information contenue dans cette matrice est donnée par le

nuage de points des individus dans l’espace Rn et par le nuage
de points des variables dans l’espace RN.
Plaçons nous dans l’espace des variables qui contient le
nuage des n points individus. Le système des p axes est
orthonormée ou encore la base de ce système (e1,e2,...ep)
est orthonormée, c'est-à-dire :
 
e1  ......  e p  1
 
ei * e j  0
Un point i quelconque a pour coordonnées ( ) zi1,zi2,...zin . La distance entre
deux points est calculée par la distance euclidienne (théorème de Pythagores). On
peut schématiser cet espace de la façon suivante :

Le vecteur FJ quelque soit j, dont les éléments sont les projections orthogonales
(les coordonnées) des n points sur l’axe Fj porte le nom de composante
principale. Il s’écrit :
 F1 j 
 
  . 
FJ (n,1)   Fij 
 
. 
 
 Fnj 
Ecriture des composantes principales dans Rp
1 Le produit scalaire
L’ACP vise donc à projeter dans R porthogonalement les n points individus sur p
nouveaux axes appelés axes principaux, sachant que l’origine de ces nouveaux
axes reste identique à celui de l’espace de départ. Ce changement d’axes a pour
but (lorsque cela est possible), de lire l’information concernant les individus en
utilisant un espace restreint à 2 ou 3 dimensions (au maximum).
Le produit scalaire
On remplace donc Z par une nouvelle matrice F :
Le produit scalaire
Pour cela, on effectue un changement de base dans l’espace
de départ. Rappelons que si on connaît les coordonnées
d’un vecteur quelconque dans la base R de départ, la
p
projection orthogonale Fij (la coordonnée) d’un point i du

Rp
nuage des n points est donnée par le produit scalaire du

vecteur par le vecteur ou G est l’origine des axes (G est
le centre de gravité du nuage des N points) :
B) Ecriture des composantes principales dans Rn
1 Le produit scalaire
On vérifie avec le produit scalaire Fj = Zbj qui définit la jième composante principale,
qu’il s’agit d’une combinaison linéaire des variables de départ, les poids étant les
éléments du nouveau vecteur bj r du changement de base.
M Cosinus carrés
Oc12
c2 P Cos (OM , CP1 ) 
2
OM 2
c1 Oc22
O Cos (OM , CP2 ) 
2
OM 2
OM : vecteur de l’observation
Qualité
OP : vecteur de la projection sur le plan factoriel
OP2
Oc1 : projection sur l’axe 1 QUAL  Cos (OM , OP) 
2
OM 2
Oc2 : projection sur l’axe 2
86
Algorithme de l’ACP
L'algorithme de l’ACP est traité par les étapes suivantes:

Etape 1 : normalisation des données
Étape 2 : calculer la matrice de corrélation, la matrice de la covariance car les données
sont normalisées.
Etape 3: Calculer les valeurs propres et les vecteurs propres de la matrice de covariance
Etape 4: projeter sur les axes orthogonaux.
Etape 5 : réduire la dimension de P
Transformation du tableau de données
Les p variables (colonnes) du tableau D de données sont centrées.

Pour chaque variable j, on remplace chaque valeur par son écart à sa moyenne:
D’ij = Dij – mj . ce centrage des variables correspond, géométriquement, à un
changement d’origine du nuage de points qui, une fois projeté sur les axes
factoriels, aura pour point moyen le point de coordonnées 0, 0, 0,
Algébriquement, le centrage des variables élimine l’ordonnée à l’origine dans

l’équation de chaque axe factoriel.
Si les variables sont exprimées dans la même unité de mesure et que l’on désire
conserver pour chaque unité statistique les différences de grandeur exprimées
par les différentes variables, l’analyse se poursuivra sur le tableau D’ (variables
centrées où l’on a effacé les différences de moyenne mais pas celles de
variance). L’exemple suivant illustre ce cas de figure.
La plupart du temps, les variables juxtaposées dans une matrice d’information ont
des unités de mesure différentes, qu’il faut donc ramener, pour les combiner, à une
unité de mesure commune: c’est accompli en standardisant chaque variable
(centrage et réduction). D’’ij = ( Dij – mj ) / ej
Pour chaque variable j (colonne) du tableau, la standardisation exprime l’écart de
chaque valeur à sa moyenne en écart type de cette variable. L’écart type devient
l’unité de mesure commune à toutes les variables. Ce sont donc les valeurs
standardisées des variables (c’est à dire leurs variabilités relatives) qui produiront
les résultats de l’ACP.
calcul des covariances
Une fois opérée la transformation du tableau initial D en tableau D’ (centré) ou D’’

(standardisé, c’est à dire centré et réduit), on passe au calcul d’une matrice de
relations entre les p variables considérées deux à deux.
Cette matrice C a donc n lignes et p colonnes. Elle contient dans chaque case ij :
- la covariance entre variables i et j si D a été centré en D’

Calcul des axes factoriels et de leur % de variance
Lorsqu’on projette les données sur un plan, on obtient un graphique déformé de la réalité.
Le rôle de l’ACP est de trouver des espaces de dimensions plus petites minimisant ces
déformations.
On utilise un espace à 2 dimensions (un plan). Ce plan est appelé le plan principal. Il est constitué
de deux droites perpendiculaires (orthogonaux entre eux). Il est identique dans toutes les analyses
factorielles . les axes factoriels sont calculés sur le tableau des covariances (ou des corrélations). La
méthode consiste à calculer la première droite D1 de façon à maximiser les carrés des distances de
projection des points sur la droite. Puis une 2éme droite D2 perpendiculaire à la première.
Droite D2
Droite Droite
D1 D1
92/3
1
Extraction des composantes principales
Les droites D1 et D2 sont des caractères synthétiques obtenus par des

combinaisons linéaires avec les variables d’origines.
Ces droites sont appelées composantes principales, ou axes principaux.
La première composante principale doit "capturer" le maximum d’inertie
du tableau des données. La variance des individus doit être maximale.
93/3
1
Caractères des composantes principales
La première composante principale "capture" le maximum d’inertie du tableau des données.
La deuxième composante principale est un complément, une correction de la première.
La deuxième composante principale doit avoir une corrélation linéaire nulle avec la première (orthogonalité).
Il reste un résidu non expliqué par cette première composante. C'est sur ce résidu qu'est calculée la deuxième
composante principale.
Il n’y a pas de redondance d’information entre deux composantes principales.
On calcule les autres composantes de la même manière.
94/3
1
L’ ACP : Rotation des axes
La rotation est le processus mathématique qui permet de faciliter l'interprétation des facteurs en
maximisant les saturations les plus fortes et en minimisant les plus faibles de sorte que chaque
facteur apparaisse déterminé par un ensemble restreint et unique de variables. Ce processus est
effectué par rotation, repositionnement des axes.
Deux types de rotations:
rotation orthogonale: On utilise cette rotation avec l'ACP2 et avec l'analyse factorielle (AF)
lorsque l'on croit qu'il est possible de déterminer des facteurs qui soient indépendants les uns des
autres. Une solution orthogonale est toujours préférable parce qu'une telle solution indique que
chaque facteur apporte une information unique, non partagée par un autre facteur.
Toutefois, ce type de solution est rarement possible en sciences sociales puisque habituellement, il
existe des liens conceptuels entre les facteurs. Il existe trois méthodes pour produire une rotation
orthogonale; la plus fréquemment utilisée est VARIMAX. Celle-ci repose sur la maximisation de la
somme des variances des carrés des saturations dans chaque colonne. En suite une autre méthode
quartimax, consiste à maximiser la variance des carrés; cette méthode exige la maximisation de la
somme des saturations à la quatrième puissance.
Avantages et inconvénients de l'ACP
Avantages
Simplicité mathématique: L'ACP est une méthode factorielle car la réduction
du nombre des caractères ne se fait pas par une simple sélection de certains
d'entre eux, mais par la construction de nouveaux caractères synthétiques
obtenus en combinant les caractères initiaux au moyen des "facteurs".
Cependant, il s'agit seulement de combinaisons linéaires. Les seuls véritables
outils mathématiques utilisés dans l'ACP sont le calcul des valeurs/vecteurs
propres d'une matrice, et les changements de base. Sur le plan mathématique,
l'ACP est donc une méthode simple à mettre en œuvre.
Simplicité des résultats : Grâce aux graphiques qu'elle fournit, l'ACP permet
d'appréhender une grande partie de ses résultats d'un simple coup d'œil.
Puissance : L'ACP a beau être simple, elle n'en est pas moins puissante. Elle
offre, en quelques opérations seulement, un résumé et une vue complète des
relations existant entre les variables quantitatives d'une population d'étude,
résultats qui n'auraient pas pu être obtenus autrement, ou bien uniquement au
prix de manipulations fastidieuses.
Flexibilité : L'ACP est une méthode très souple, puisqu'elle s'applique sur un
ensemble de données de contenu et de taille quelconques, pour peu qu'il s'agisse
de données quantitatives organisées sous forme individus/variables. Cette
souplesse d'utilisation se traduit surtout par la diversité des applications de
l'ACP, qui touche tous les domaines, comme exposé dans la partie précédente.
Inconvénients
En tant que méthode d'analyse de données, l'ACP n'a pas réellement
d'inconvénients en soi. Elle s'applique simplement sur des cas précis et pour
générer un type de résultat particulier. Ca n'aurait donc aucun sens de dire
que c'est un inconvénient de l'ACP qu'elle ne s'applique pas en dehors de
ce contexte. De même, étant donné qu'il s'agit avant tout d'une technique
de résumé de données, la perte d'information forcément engendrée n'est pas
un inconvénient, mais plutôt une condition d'obtention du résultat, même
si elle occulte parfois des caractéristiques pourtant représentatives dans
certains cas particuliers.
L’ ACP appliquée enMarketing
Cette méthode trouve de nombreuses applications dans le
domaine des études marketing:
1. Segmentation du marché;
2. Etudes de positionnement;
3. En recherche produit;
4. Etudes publicitaires;
5. Etudes prix…
Glossaire ACP
 Tableau de données: Tableau croisant les individus i et les variables j;
 Matrice des corrélations: Corrélations entre l’ensemble des couples de variables;
 Matrice des corrélations reconstituée: A partir des composantes sélectionnées;
 Résidus: L’écart entre la matrice des corrélations et celle des corrélations reconstituée;
 Valeur propre: Représente la variance totale expliquée par chaque facteur, axe,
composante;
 Vecteur propre: Représente les coefficients factoriels;
 Matrice des loadings: Corrélations entre les variables et les facteurs;
 Rotation: Technique qui consiste à pivoter les facteurs avec un angle θ;

Glossaire ACP
 Contribution: Contribution de chaque variable/individu dans la formation de les axes;
 Représentation: A quel degré les variables/individus sont bien représentés sur les axes;
 Score factoriel: Pour chaque i, ce sont les nouvelles coordonnées sur les facteurs principaux;
 Test de coude ou Scree Test: Graphique des valeurs propres, pris dans leur ordre
d’importance;
 Test de Sphéricité de Bartlett: Compare la matrice des corrélation à une matrice identité.
 Test Kaiser Mayer Olkin (KMO): Utilisé pour mesurer l’adéquation de l’ACP ou l’AF, il doit
être compris en 0,5 et 1;
 Pourcentage de variance (inertie): Part de la variance totale attribuée à chaque facteur;

Mener une ACP surSPSS
Formuler le Calculer la Extraire les Interpréter Calculer les Estimer

problème matrice des facteurs les facteurs scores l’adéquation
corrélations factoriels du modèle
I- Formuler leproblème
 Objectif(s) de l’étude;
 Variables d’études;
 Echelle;
 Taille de l’échantillon;
Etude de cas
Les avantages fondamentaux

recherchés par les consommateurs lors
de l’achat d’un dentifrice
• Le sondage est réalisé sur un échantillon de 30 personnes

dans un centre commercial, ces dernières ont donné leur avis
sur les affirmations suivantes, sur une échelle de 1 à 7 (1:
entièrement d’accord, En total désaccord: 7)
 V1: Il est importantd’utiliser un dentifrice qui prévient la formation des caries;

 V2: Un dentifrice doit rendre les dents brillante;
 V3: Un dentifrice doit renforcer les gencives;
 V4: Un dentifrice doit rafraîchir l’haleine;
 V5: La prévention des caries n’est pas un avantages important du dentifrice
 V6: Un dentifrice doit, avant tout, donner de belles dents;
Saisie des données sur SPSS
Répondant V1 V2 V3 V4 V5 V6
1 7 3 6 4 4 2
2 1 3 2 4 5 4
3 6 2 7 4 1 3
4 4 5 4 6 2 5
…
30 2 3 2 4 7 2
Saisie des données sur SPSS

Lancer l’ACP sur SPSS
Bouton Descriptives
Bouton Extraction
Lancer l’ACP surSPSS
Bouton Rotation
Lancer l’ACPsur SPSS
Bouton Facteurs
Avec test de Bartlett …
I-Calculer la matrice
des corrélation
Calcul de la matrice des corrélation
L’analyse en composantes principales s’accommode assez bien des
situations où un certain niveau de multicolinéarité existe entre les
données. Cependant, il faut absolument se méfier de la condition dite
de « singularité » où une variable serait parfaitement corrélée avec
une autre variable ou avec une combinaison de plusieurs variables.
Cette condition peut être détectée en calculant le « déterminant» de
la matrice de corrélation |R|. Le déterminant est une valeur
numérique unique associée à une matrice carrée et qui peut prendre
n’importe quelle valeur entre «0» et «1». Cependant ces deux valeurs
extrêmes sont problématiques. En effet, un déterminant de «0»
indique que la matrice est singulière c’est-à-dire qu’il existe au moins
un cas de dépendance linéaire dans la matrice ou, en d’autres mots,
qu’une variable peut être entièrement expliquée ou prédite par une
combinaison linéaire d’autres variables.
Une matrice carrée est singulière
c'est-à-dire que son déterminant est zéro, si elle contient des lignes ou des colonnes
qui sont proportionnellement interdépendantes; en d'autres termes, une ou plusieurs
de ses lignes (colonnes) est exactement exprimable comme une combinaison linéaire
de tout ou partie de ses autres lignes (colonnes), la combinaison étant sans terme
constant.
Imaginons, par exemple, une matrice 3x3 (symétrique, comme une matrice de
corrélation, ou asymétrique). Si C3 = 2,15*C1, la matrice est singulière, Si L2 = 1.6*L1-4
* L3, la matrice est à nouveau singulière. Comme cas particulier, si une ligne ne
contient que des zéros, la matrice est également singulière car toute colonne est alors
une combinaison linéaire des autres colonnes. En général, si une ligne (colonne) d'une
matrice carrée est une somme pondérée des autres lignes (colonnes), alors l'une de ces
dernières est également une somme pondérée des autres lignes (colonnes).
La matrice singulière ou quasi-singulière est souvent appelée matrice «mal

conditionnée» car elle pose des problèmes dans de nombreuses analyses de données
statistiques.
Quelles données produisent une matrice de corrélation
singulière?
À quoi doivent ressembler les données multivariées pour que leur
matrice de corrélation ou de covariance soit la matrice singulière
décrite ci-dessus? C'est quand il y a des interdépendances linéaires
entre les variables. Si une variable est une combinaison linéaire
exacte des autres variables, avec un terme constant autorisé, les
matrices de corrélation et de covariance des variables seront
singulières. La dépendance observée dans une telle matrice entre ses
colonnes est en fait la même dépendance que la dépendance entre
les variables dans les données observées après que les variables ont
été centrées (leurs moyennes ramenées à 0) ou normalisées (si l'on
entend une matrice de corrélation plutôt que de covariance).
Singularité comme colinéarité géométrique
Du point de vue géométrique, la singularité est la

multicolinéarité: les variables affichées sous forme de
vecteurs (flèches) se situent dans l'espace de
dimensionnalité inférieur au nombre de variables - dans un
espace réduit. Cette dimensionnalité est connue sous le
nom de rang de la matrice; elle est égale au nombre de
valeurs propres non nulles de la matrice.
Dans une vue géométrique, la singularité est la présence de
valeur propre nulle c'est-à-dire que certaines valeurs
propres de la matrice de corrélation deviennent négatives
Colinéarité dans la régression: une explication géométrique et
ses implications
La première image au-dessus montre une situation de régression normale avec deux
prédicateurs (régression linéaire). les prédicteurs modérément corrélés (= ayant un
angle aigu entre eux <90) X1 et X2 s'étendent sur le "plan X" de l'espace à 2
dimensions. La variable dépendante Y est projetée sur elle orthogonalement, laissant
la variable prédite Y ′ et les résidus avec écart égal à la longueur de e. R-carré de la
régression est l'angle entre Y et Y ′, et les deux coefficients de régression sont
directement liés au biais coordonnées b1 et b2, respectivement.
ses implications
L'image ci-dessus montre une situation de régression avec des prédicteurs complètement colinéaires.
X1 et X2 sont parfaitement corrélés et donc ces deux vecteurs coïncident et forment la ligne, un espace à une
dimension. C'est un espace réduit. Mathématiquement cependant, le plan X doit exister pour résoudre la
régression avec deux prédicteurs, - mais le plan n'est plus défini, hélas. Heureusement, si nous supprimons l'un
des deux prédicteurs colinéaires de l'analyse, la régression est alors simplement résolue car la régression à un
prédicteur nécessite un espace de prédicteurs unidimensionnel. Nous voyons la prédiction Y ′ et l'erreur e de
cette régression (à un prédicteur), tracées sur l'image. Il existe également d'autres approches, en plus de
supprimer des variables, pour se débarrasser de la colinéarité
ses implications
L'image finale ci-dessus montre une situation avec des prédicteurs presque
colinéaires. Cette situation est différente et un peu plus complexe et désagréable.
X1 et X2 (tous deux représentés en bleu) sont étroitement corrélés et de là presque
coïncident. Mais il y a toujours un petit angle entre eux, et en raison de l'angle non
nul, le plan X est défini (ce plan sur l'image ressemble au plan sur la première
image). Donc, mathématiquement, il n'y a aucun problème pour résoudre la
régression. Le problème qui se pose ici est d'ordre statistique.
ses implications
Habituellement, nous faisons une régression pour déduire le carré R et les coefficients
de la population. D'un échantillon à l'autre, les données varient un peu. Donc, si nous
prenions un autre échantillon, la juxtaposition des deux vecteurs prédicteurs
changerait légèrement, ce qui est normal. Il n'est pas «normal» que sous une
colinéarité proche, cela entraîne des conséquences dévastatrices. Imaginez que X1 se
soit légèrement décalé vers le bas, au-delà du plan X - comme le montre le vecteur
gris. Parce que l'angle entre les deux prédicteurs était si petit, le plan X qui passera par
X2 et à travers ce X1 dérivé divergeront radicalement de l'ancien plan X. Ainsi, parce
que X1 et X2 sont tellement corrélés, nous nous attendons à un plan X très différent
dans différents échantillons de la même population. Comme le plan X est différent, les
prédictions, le R-carré, les résidus, les coefficients - tout devient également différent.
On le voit bien sur la photo, où le plan X a basculé quelque part à 40 degrés. Dans une
situation comme celle-là, les estimations (coefficients, R-carré, etc.) sont très peu
fiables, ce qui s'exprime par leurs énormes erreurs types. Et en revanche, avec des
prédicteurs loin d'être colinéaires, les estimations sont fiables parce que l'espace
couvert par les prédicteurs est robuste à ces fluctuations d'échantillonnage des
données.
Colinéarité en fonction de l'ensemble de la matrice
Même une corrélation élevée entre deux variables, si elle est inférieure à 1, ne rend pas
nécessairement toute la matrice de corrélation singulière; cela dépend également des
autres corrélations. Par exemple cette matrice de corrélation:
a un déterminant .00950 qui est pourtant suffisamment différent de 0 pour être considéré
comme éligible dans de nombreuses analyses statistiques. Mais cette matrice:
a un déterminant .00010, un degré plus proche de 0.

Comme le mentionne Field (2000), on ne devrait jamais procéder à une ACP sur
une matrice de corrélation dont le déterminant est plus petit que 0.00001. À
l’inverse, un déterminant égal à 1 correspond lui aussi une condition impropre à
l’ACP; il indique que la matrice de corrélation est une matrice d’identité, c’est -à-dire
une matrice ne contenant que des valeurs 0, sauf pour la présence des valeurs 1 dans
la diagonale. Il existe un test statistique qui permet de mettre à l’épreuve l’hypothèse
nulle selon laquelle la matrice de corrélation observée dans notre échantillon
proviendrait d’une population où la matrice serait une matrice d’identité. C’est le
test de sphéricité de Bartlett. Évidemment, nous souhaitons vivement que ce test soit
significatif pour nous autoriser à rejeter l’hypothèse nulle d’identité indiquant
l’absence de corrélation significative entre nos variables.
Il faut dire que le test de Bartlett est sensible à la taille de

l’échantillon et que lorsque le N est assez grand, les chances de
rejeter l’hypothèse nulle sont très élevées. En ce sens, le rejet de
l’hypothèse nulle ne garantit pas nécessairement que l’ACP
donnera de bons résultats; à l’inverse, si le test de Bartlett ne
nous permet pas de rejeter l’hypothèse nulle, nous sommes en
présence d’une situation vraiment extrême où l’ACP n’est pas
justifiable. Qu’en est-il de notre matrice?
Qu’en est-il de notre matrice?

Son déterminant est de 0.014 < 0.00001, indiquant qu’il ne s’agit

pas d’une matrice singulière; de plus, le test de sphéricité de Bartlett
nous donne une valeur de 111.314, p<0.05 nous permettant
évidemment de rejeter l’hypothèse nulle et d’affirmer qu’il ne s’agit
pas non plus d’une matrice d’identité. Il serait donc légitime de
procéder à une ACP des données du tableau.
matrice des corrélation
Nous venons de voir deux indices (le déterminant et le test de sphéricité

de Bartlett) qui nous aident à vérifier si dans l’ensemble une matrice de
corrélation possède les propriétés souhaitées pour l’analyse en
composantes principales. Il est également important d’examiner chacune
des variables de façon individuelle pour nous assurer que chacune d’elles
est en relation avec l’ensemble des autres variables. Par exemple, en
inspectant une à une chaque rangée de notre matrice. vous constaterez
que toutes les variables démontrent au moins une corrélation substantielle
avec une autre variable. Lorsque nous sommes en présence d’une variable
qui n’est en corrélation avec aucune autre dans la matrice, il est
recommandé de retrancher cette variable avant de procéder à une ACP.
L’examen des variables individuelles est grandement facilité par le calcul des
mesures d’adéquacité de l’échantillonnage (Mesure de la suffisance de
l'échantillonnage) de Kaiser-Meyer-Olkin (Measure of Sampling Adequacy, MSA
»). Ces indices se calculent pour chacune des variables de même que pour la
matrice globale et peuvent prendre elles aussi des valeurs entre 0 et 1 Pour être
conservée dans une ACP, une variable doit obtenir une mesure K-M-O dépassant
0.5. Kaiser (1974) a suggéré une gradation intéressante utilisant les points de
référence suivants : inacceptable en dessous de 0.5,
médiocre entre 0.5 et 0.6,
moyen entre 0.6 et 0.7,
bien entre 0.7 et 0.8,
très bien entre 0.8 et 0.9
excellent au delà de 0.9.
Qu’en est-il de notre matrice?

Kaiser-Meyer-Olkin est moyen
Les données présentées au tableau sont particulièrement encourageantes mesurant les

affirmations de la consommation de dentifrice. Nous procéderons maintenant à
l’extraction des composantes principales de ces données.
Avec critère de Kaiser…
II- Extraire les facteurs et

déterminer leur nombre
Extraction des facteurs et détermination de leur nombre
remarque
Le tableau suivant nous donne les statistiques initiales sous une forme. Le premier, dans la
portion de gauche (les valeurs 2.73, 2.21…..etc ) nous donne les valeurs propres décroissantes
et les pourcentages correspondants de chaque composante « Factor » extraites. au fait que
chaque variable a une variance de 1 et que la totalité de cette variance sera utilisée pour
déterminer les composantes principales. La colonne juxtaposée énumère la proportion de
variance attribuée à chacune des six composantes de notre analyse cumulée. il faut bien
observer que nous sommes en présence de deux tableaux présentés côte à côte par SPSS. La
portion de droite nous informe que la première composante C1 expliquera 45.52% de la
variance totale des variables, alors que la composante C2 ajoutera un autre 36.96%. Au total,
notre ACP permettra donc d’expliquer 82.48% de la variance présente dans nos données à
l’aide de deux composantes indépendantes.
Extraction des facteurs et détermination de leur nombre
Le nombre maximum de composantes principales qu’il est possible d’extraire

d’une matrice de corrélation est égal au nombre de variables dans la matrice.
Dans l’exemple qui nous intéresse nous pourrions donc extraire jusqu’à six
composantes. le pourcentage de variance expliqué par chaque composante
décroît systématiquement à mesure que l’on progresse dans le processus
d’extraction et peut devenir tout à fait négligeable une fois que les
composantes les plus importantes auront été extraites. Ceci nous amène à
considérer différents critères qui nous aideront à déterminer combien de
composantes il vaut la peine d’extraire.
1. Utilisation du critère de Kaiser
Pour comprendre ce critère il faut aborder brièvement la notion de variance
présente dans les données. Dans le cas d’une matrice de corrélation comme
celle présentée au dessus, les valeurs apparaissant dans la diagonale principale
correspondent à la variance de chaque variable. Si vous avez de la difficulté à
réconcilier cette affirmation avec l’observation que ce sont toutes des valeurs 1
qui apparaissent dans cette diagonale c’est simplement que vous n’avez pas
réalisé que le calcul d’un coefficient de corrélation entraîne toujours une
standardisation des variables. Par exemple, lorsque nous calculons la
corrélation entre la taille d’individus mesurée en centimètres et leurs poids
corporels mesurés en kilogrammes, nous perdons la métrique de ces deux
mesures (cm et kg) parce que le calcul entraîne une standardisation sur de
nouvelles échelles possédant chacune une moyenne de 0 et un écart-type de 1.
Sur les échelles standardisées, chacune des mesures apparaissant dans une
matrice de corrélation a donc bel et bien une variance de 1. La variance totale
dans la matrice quant à elle, correspond à la somme des variances de chaque
variable. Dans le cas qui nous intéresse la variance totale présente dans les
données est donc de 6 puisqu’il y a six variables dans la matrice de corrélation.
1. Utilisation du critère de Kaiser
Comment cette variance totale (6) sera-t-elle répartie entre les différentes
composantes que nous voulons extraire? La réponse s’obtient en calculant ce
que l’on nomme la valeur propre ou « eigenvalue » de chaque composante. Le
tableau présente ces valeurs pour les données simulant les affirmations des
personnes pour l’achat de dentifrice. On constate que la valeur propre
(eigenvalue) de la première composante est de 2.73 ce qui correspond à 45.52
% de la variance totale de 6. Comme nous l’avons mentionné précédemment,
l’algorithme utilisé en ACP fait en sorte de maximiser la variance expliquée par
la première composante. Toujours selon ce même algorithme, la deuxième
composante extraite viendra expliquer une portion additionnelle de variance,
indépendante de la première, et correspondant à une proportion plus faible
que la précédente. L’examen du tableau permet de constater que la
composante C2 explique 2.21 unités de variance (sur 6), ce qui correspond à
36.96 % de la variance totale.
1. critère de Kaiser
Nous pouvons donc dire qu’après avoir extrait deux composantes principales le
chercheur serait en mesure de rendre compte de 82.48% de la variance des
avantages animant le consommateur à acheter dentifrice. N’est-ce pas là
précisément l’objectif de l’analyse en composantes principales? Réduire les
données de 6 variables à 2 composantes tout en réussissant à rendre compte
de 82.48% de la variance initiale… On pourrait même se demander si cela vaut
vraiment la peine de continuer à extraire d’autres composantes au-delà de la
dimension C2. Le critère de Kaiser nous dit justement qu’il ne vaut pas la peine
de poursuivre l’extraction puisque la composante C3 n’expliquerait que 0.44
unités de variance (moins d’une unité de variance), ce qui correspond à moins
de variance que celle associée à une variable initiale de la matrice de
corrélation. Rappelez-vous que chaque variable possède 1 unité de variance.
Selon Kaiser (1960), l’extraction des composantes doit donc s’arrêter dès
qu’une valeur propre devient inférieure à 1
2. test d’accumulation de variance « scree test » de Cattell
En 1966, Cattell a proposé une méthode graphique pour décider

du nombre de composantes à extraire. Le test d’accumulation de
variance communément appelé «scree test» demande que l’on
trace un graphique illustrant la taille des valeurs propres « eigen
values» des différentes composantes en fonction de leur ordre
d’extraction. Le terme «scree» fait référence à un phénomène
géomécanique où l’on observe une accumulation de dépôts
rocheux au pied d’une montagne, créant ainsi un petit
promontoire à l’endroit où le dénivelé de la montagne se
transforme brusquement en une pente plus douce. Le critère
proposé par Cattell nous amène à arrêter l’extraction des
composantes à l’endroit où se manifeste le changement de pente
dans le graphique.
2. test d’accumulation de variance « scree test » de Cattell
La figue correspond au test d’accumulation de variance pour nos données. On y

constate que la pente change radicalement avec la composante C3. La
représentation graphique des variances nous aide à voir que le point C3
appartient beaucoup plus au segment C3 à C6 qu’au segment C1 à C3. Selon le
critère de Cattell on devrait donc se limiter à l’extraction des deux premières
composantes.
3. Décision basée sur l’interprétation des composantes extraites
Ultimement, la décision concernant le nombre de composantes
à extraire doit aussi tenir compte de la capacité des chercheurs
à interpréter les dimensions extraites. Il ne sert à rien d’extraire
une composante en s’appuyant sur un critère aussi rigoureux
soit-il, si par ailleurs cette composante défie toute
compréhension. Par ailleurs, Wood, Tataryn et Gorsuch (1966)
ont démontré qu’une surestimation du nombre de composantes
était généralement moins dommageable qu’une sous-
estimation. Comme vous le voyiez la décision quant au nombre
de composantes à extraire est difficile à prendre et comporte
une part importante de subjectivité. Il est suggéré de confronter
les différents critères plutôt que d’appliquer bêtement l’unique
règle du eigenvalue > 1 de Kaiser.
III- recherche d’une structure
simple des composantes
La structure simple des composantes
L’une des étapes importantes dans l’ACP

consiste à identifier et à nommer les
composantes extraites. Pour ce faire, il est
courant d’examiner chacune des
composantes une à une et de déterminer
avec lesquelles des variables initiales elles
sont le plus en corrélation.
La structure simple des facteurs
L’algorithme utilisé maximise la variance expliquée,

mais au prix d’une interprétation souvent difficile des
composantes extraites. La dernière étape de l’ACP
consiste donc à transformer à nouveau la solution
obtenue en faisant une rotation des axes servant à
définir les différentes composantes.
Cette transformation mathématique des vecteurs

correspondant aux composantes préserve la variance
expliquée de chaque variable, mais la réassigne à des
composantes transformées.
La structure simple des facteurs
On emploie le terme « rotation » parce que la

détermination des nouvelles pondérations se fait en
faisant pivoter (Tourner sur un pivot ) les axes de
référence (les composantes) de manière à simplifier la
structure obtenue. Deux grands types de rotation
peuvent être distingués : orthogonale et oblique. Dans
le cas d’une rotation orthogonale, les axes de références
seront déplacés en maintenant l’angle de 90° degrés qui
les sépare, préservant ainsi l’indépendance des
composantes. À l’opposé, une rotation oblique pourra
déplacer les axes de références en augmentant ou en
diminuant l’angle qu’ils forment entre eux.
Interprétation des résultats du SPSS
La sortie imprimée des résultats SPSS présente d’abord la

matrice de corrélation soumise à l’ACP. Rappelons que
vous devriez déjà avoir examiné cette matrice avant de
procéder à une ACP pour vous assurer que les variables
utilisées seront pertinentes, suffisamment corrélées entre
elles et qu’elles ne comporteront aucun cas de singularité
où une variable serait entièrement définie par une ou
plusieurs autres variables combinées.
Pour faciliter le diagnostic de conditions problématiques dans la

matrice de corrélation, vous avez demandé d’imprimer certaines
statistiques importantes comme le déterminant de la matrice, la
mesure globale d’adéquacité d’échantillonnage de Kaiser-Meyer-
Olkin, de même que le test de sphéricité de Bartlett. Vous trouverez
les résultats de ces tests directement sous la matrice de corrélation.
Ces statistiques nous encouragent à poursuivre l’ACP. En effet, le
déterminant est > .00001 et donc ne s’approche pas trop de 0.0, la
mesure d’adéquacité de l’échantillonnage peut être qualifiée de «
moyenne » et le test de Bartlett nous permet de rejeter l’hypothèse
nulle selon laquelle nos données proviendraient d’une population
où la matrice de corrélation serait une matrice
d’identité.
L’examen des résultats produits par SPSS
La sortie imprimée des résultats SPSS présente d’abord la matrice

de corrélation soumise à l’ACP. Rappelons que vous devriez déjà
avoir examiné cette matrice avant de procéder à une ACP pour
vous assurer que les variables utilisées seront pertinentes,
suffisamment corrélées entre elles et qu’elles ne comporteront
aucun cas de singularité où une variable serait entièrement définie
par une ou plusieurs autres variables combinées.
Pour faciliter le diagnostic de conditions problématiques dans la matrice de
corrélation, vous avez demandé d’imprimer certaines statistiques importantes comme
le déterminant de la matrice, la mesure globale d’adéquacité d’échantillonnage de
Kaiser-Meyer-Olkin, de même que le test de sphéricité de Bartlett. Vous trouverez les
résultats de ces tests directement sous la matrice de corrélation.
Determinant of Correlation Matrix = .014

Kaiser-Meyer-Olkin Measure of Sampling Adequacy = 0.66
Bartlett Test of Sphericity = 111, Significance = .00000
Ces statistiques nous encouragent à poursuivre l’ACP. En effet, le

déterminant est > .00001 et donc ne s’approche pas trop de 0.0, la
mesure d’adéquacité de l’échantillonnage peut être qualifiée de «
moyenne » et le test de Bartlett nous permet de rejeter l’hypothèse
nulle selon laquelle nos données proviendraient d’une population
où la matrice de corrélation serait une matrice d’identité.
La colonne initial énumère la proportion de variance attribuée à chacune des six

variables de notre analyse. Dans le cas présent, les valeurs 1 correspondent au fait
que chaque variable a une variance de 1 et que la totalité de cette variance sera
utilisée pour déterminer les composantes principales. la colonne extraction de ce
tableau, nous indique pour chaque variable la part de la variance expliquée par la
solution à 2 composantes.
Le tableau nous donne une information très utile sur chacune des
variables participant à l’analyse. On y retrouve la proportion de
variance commune entre chaque variable et l’ensemble des
composantes retenues dans la solution finale. Ainsi, on peut constater
que 45.52% de la variance de la variable « il est important d’utiliser
dentifrice qui prévient la formation des caries » est explicable à l’aide
des deux composantes extraites. L’inspection de ces valeurs est
importante car elle peut nous indiquer assez facilement les variables
qui ont une variance unique, non partagée par l’ensemble des autres
variables
Par exemple, on voit ici que l’avantage d’achat de «

dentifrice liée au rafraîchissement de l’haleine » (0.0568=
0,341/6) se démarque de l’ensemble des autres avantages
dans la détermination du comportement de l’acheteur de
dentifrice; on peut même affirmer que 94.32% de la
variance d’achat de dentifrice soit pour la raison de
rafraîchissement de l’haleine (1- 0.0568), est non expliquée
par les deux composantes extraites.
L’étape de rotation. la décision à

prendre sur le type de rotation à
effectuer n’est pas facile. Nous
examinerons d’abord les résultats
d’une rotation orthogonale de type
VARIMAX. Ce type de rotation a pour
effet de diminuer la généralité de la
première composante principale.
Elle simplifie la structure de la
solution en maximisant la variance
des composantes. Généralement
cela entraîne une redistribution des
pondérations de façon telle que
certaines variables seront fortement
corrélées avec une dimension, alors
que d’autres variables obtiendront
des pondérations négligeables.
tableau suivant présente la matrice de

pondérations après rotation de type
varimax. Par exemple, on peut dire que la
pondération de la composante C1 est de
0.96 pour expliquer V1 et 0.93 pour V3 et -
0.93 pour V5, par ce que ces gens ne
l’achétent pas selon leur point de vue
dentifrice ne prévient pas la carie alors que
la composante C2 est associée au V2, au v4
et au V6
L’examen de la matrice des poids factoriels après rotation permet de
constater facilement que la première composante est définie par les
avantages de l’achat de dentifrice reliées à la prévention des caries
dentaires «V1», soin des gencives fragilisées «V3», et le V5: La prévention
des caries n’est pas un avantages important du dentifrice. La deuxième
composante, quant à elle, se définit en termes de «V2»: Un dentifrice
doit rendre les dents brillante, de «V4»: Un dentifrice doit rafraîchir
l’haleine et de «V6»: Un dentifrice doit, avant tout, donner de belles
dents. Je vous laisse le soin de déterminer si ces deux composantes
correspondent à votre perception des avantages reliées à l’achat de la
dentifrice. Quant à moi, il me semble qu’elles mettent en évidence une
première dimension reliée au comportement du «prévention dentaire»,
Pour avoir des dents fortes et saines et préserver la santé de ses
gencives, alors que la deuxième serait plutôt reliée au comportement du
«esthétiques dentaire» afin d'avoir un jolie sourire et d’afficher un
sourire rayonnant
Cette première solution assume que les composantes

«prévention dentaire» et «esthétiques dentaire» sont
indépendantes l’une de l’autre, mais nous ne sommes pas
en mesure de vérifier directement la validité de ce
postulat. Une rotation oblique permettrait de voir plus
clair sur cette question, puisqu’elle n’assumerait pas
l’indépendance des deux dimensions.
Contribution des variables en % Représentation des variables

Après rotation
Facteur 1 Facteur 2 Facteur 1 Facteur 2
V1 34,407 0,019 V1 0,926 0,000
V2 0,146 31,815 V2 0,004 0,719
V3 32,490 0,868 V3 0,874 0,020
V4 0,400 32,238 V4 0,011 0,728
V5 32,332 0,358 V5 0,870 0,008
V6 0,225 34,702 V6 0,006 0,784
V1: Il est important d’utiliser un dentifrice qui prévient la formation des caries;
V2: Un dentifrice doit rendre les dents brillante;
V3: Un dentifrice doit renforcer les gencives;
V4: Un dentifrice doit rafraîchir l’haleine;
V5: La prévention ces caries n’est pas un avantages important du dentifrice
V6: Un dentifrice doit, avant tout, donner de belles dents;
V1: Prévention de la formation des caries;

sociaux
Bienfaits
V2: Dents brillantes;

V3: Renforce les gencives;
V4: Rafraîchit l’haleine;
V5: La prévention des caries (NI)
V6: De belles dents;
Hygiène & santé des dents

Calcul des scoresfactoriels
Etude de cas-2
ressemblent et dissemblances des
notes des étudiants
Conditions d’utilisation de l’ACP
Utilisation de variables
quantitatives continues et les
variables qualitatives ordinales.
Relation linéaire entre les

variables Les donnéesdevraient
( CPA est basée sur la être adaptées à la
corrélation de Pearson) réduction desdonnées
(test de Bartlett de la
Sauf pour les variablesordinales
sphéricité )
Adéquation de l’échantillonnage : pour Ce test doit être très
assurer une puissance statistique significatif < 0.05
minimale. Entre 0.05 et 0.10
Un minimum de 150 cas, soit 5 à 10 cas acceptable et audessus
par variable, a été recommandé comme de 0.10, rejeté.
taille minimale de l'échantillon
La mesure KMO tend vers 1 En réalité, il y a
inacceptable en dessous de 0.5, toujours une condition
médiocre entre 0.5 et 0.6, qui n’est pas vérifiée,
moyen entre 0.6 et 0.7, Cependant il y a
bien entre 0.7 et 0.8, souvent une solution
très bien entre 0.8 et 0.9 pour à cela.
excellent au delà de 0.9.
 Objectifs de l’étude
 Variables de l’étude
Formuler leproblème  Echelle
 Taillede
l’échantillon
Lancer l’ACP surSPSS Saisie des notes sur Spss
Calcul la matrice de corrélations et vérifier si lesdonnées  Test KMO

sont-elles factorisables  Test Bartlett
Extraire les facteurs et déterminer leur nombre • Variance totale expliquée
Interpréter les facteurs
 Matrice de composantes et Matrices des

composantes après rotation
 Diagramme de composantes dans l’espace
après rotation
Voyons notre cas d’étude
Soit un échantillon de 30 étudiants en architecture 1 ère année pris au
hasard et qui ont obtenu les notes /20 suivantes . L’objectif est
d’analyser la corrélation entre les variables quantitatives au nombre de
7 qui sont ici les notes de: atelier, théorie de projet, dessin codifié, HCA,
TMC, physique et math. Aussi, pour savoir si un changement dans une
note pourrait affecter une autre.
Les notes des étudiants ne sont plus représentés dans un espace be-
dimensionnel, mais dans un espace de dimension 7 (chaque étudiant
étant caractérisé par ses 7 notes). Donc, l’objectif de l’ACP est de
revenir à un espace de dimension réduite, ici à 2 dimensions) en
déformant le moins possible la réalité. La finalité est de mettre en
évidence le mieux les liaisons initiales entre les variables ou items.
Cette méthode est basée sur la recherche des axes principaux d’un
nuage de points
Saisie des donnéeset
Lançons maintenant le logiciel spss saisie desvariables
1
Affichage des variables
Affichage desdonnées
Ici toutes les données sont quantitatives
continues (Mesure= Echelle), sauf Id qui est la
nomination des étudiants et qui ne sont pas
pris dans lecalcul.
Pour mettre en œuvre l’ACP , il faut aller au menu :
Analyse---Réduction des dimensions---- Analyse factorielle
Sélectionner toutes les variables sauf la variable « Nom
des étudiants » puis les insérer dans la fenêtre « Variables »
Vers
1 2
Appuyer sur le bouton « descriptibles »
Dans la boite de dialogue « Analyse factorielle : caractéristiques »
 Sélectionner « coefficients » : elle va produire la corrélation de Pearson entre

les variables sur laquelle l’ACP est construite.
 Sélectionner « Indice KMO et test sphéricité de Bartlett , pour voir si les
données sont factorisables ou non , l'adéquation des échantillons pour
mettre en œuvre l’ACP.
 Appuyer sur « Poursuivre »
Appuyer sur le bouton « Extraction »
Dans la boite de dialogue « Extraction »
 Choisir dans « Méthode » Composantes principales
 Cocher « Matrice de corrélation » (table de corrélation)
 Cocher « Structure factorielle sans rotation »
 Cocher « Diagramme des valeurs propres »,(scree plot) , qui produit le graphique de Kattell (1966) qui
est fondé sur la courbe décroissante des valeurs propres. Il s’agitde déterminer le nombre de
composantes principales ou facteurs à extraire .
 Dans «Basé sur la valeur propre » dans l’encadré « Extraire choisir la valeur 1, cela indique que tous les
axes avec une valeur propre (Eigenvalue) supérieure à 1 seront conservées . Il s’agit du critère de Kaiser
pris par défaut par le spss. C’est ici dans cet encadré qu’on peut préciser le nombre précis de
composantes principales ou de facteurs .
 Appuyer le bouton « Rotation» Boite de dialogue « Rotation »
• Cocher « Varimax»
C’est une rotation orthogonale : une approche pour produire une rotation orthogonale des facteurs . Cela
signifie que la rotation Varimax aide à identifier la contribution des variables à la formation des axes
factoriels ou composantes, ce qui facilite de tirer, d’une manière rapide et synthétique, des conclusions sur
les dimensionnalitésdes variables.
La rotation Varimax consiste à associer chacune des variables à un nombre réduit de facteurs et à
représenter chaque facteur par un nombre limité de variables. Visuellement les variables sont rapprochées
des axes auxquels elles contribuentde manière à en faciliter l’interprétation.
http://www.lesphinx-developpement.fr/blog/tag/
• Cocher « structure après Rotation»

• Cocher « Cartes factorielles » [loading plot(s)] pour montrer le nuage de points .
Boite de dialogue « Option»
Appuyer sur « Option »
 Cocher « Classement des variables par
taille » , cela signifie qu’on trie les
composantes sur la base de la taille , cela
facilitera la lecture etl’interprétation.
On clique à la fin sur ok pour entamer le traitement des données.

Analyse des résultats
L’analyser des résultats d’une ACP, passe par la

réponse à trois questions:
a. Les données sont-elles factorisables?
b. Combien de facteurs ou composantes à
retenir ?
c. Les résultats sont-ils interprétables ? La
corrélation entre les variables d’une part et entre
les variables et les composantes d’autre part?
1- Les données sont-elles factorisables ?
Pour répondre à la 1ère question, il faut d’abord observer les corrélations des variables,
puis l’indice de KMO (Kaiser-Meyer-Olkin) et enfin le test de sphéricité de Bartlett. Si
l’ACP satisfait à au moins deux de ces trois conditions, il est possible de continuer notre
interprétation.
1- Analysons la matrice de corrélation (Correlation Matrix ), pour estimer si les données
sont-elles factorisables. Si plusieurs variables sont corrélées la factorisation est possible.
Dans le cas contraire , on peut dire que la factorisation n ’est pas conseillée.
Comme on peut le voir dans le table , on peut dire que beaucoup de variables sont
corrélées et leurs coefficient s de Pearson sont assez élevés. De ce faite, dans notre
exemple, la factorisation est possible. Les corrélations <0,3 ne sont pas prises en
considération. Dès le début de l’analyse, dans la boite de dialogue «Option » on pouvait
2- Aussi, il convient d’observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit
obligatoirement tendre vers 1. Si ce n’est pas le cas, la factorisation n’est pas plus
possible . Ici KMO=0,658 , même si c’est médiocre, c’est un bon résultat.
Pour juger de l’indice de KMO:
 inacceptable en dessous de 0.5,
 médiocre entre 0.5 et 0.6,
 moyen entre 0.6 et 0.7,
 bien entre 0.7 et 0.8,
 très bien entre 0.8 et 0.9
 excellent au delà de 0.9.
 Enfin, on utilise le test de sphéricité de Bartlett. : Dans notre cas

sig=0,000, c’est très significatif. Si sig< 0,05, c’est significatif et rejeté si
sig <0,10.
2- Extraction des composantes principales (facteurs)
• 1 ère règle: selon la règle de Kaiser seules les composantes aux valeurspropres
(Eigenvalue) supérieures à 1 sont retenues .
2 ème règle: le nombre de composantes (appelées aussi axes) est choisi en fonction
de la restitution minimale d’information désirée. On souhaite, par exemple, que
notre ACP rétablie au moins 80% de l’information initiale.
« Variance totale expliquée » ( Total varianceexplained)

1
2
Coude
3
4
5
6
7
 3ème règle :le critère de kattel, il est basé sur le graphique scree plot qui
représente en abscisse les composantes.et en ordonnée les valeurs propres
 Test du coude (Scree-test ). On observe le graphique des valeurs propres et on ne
retient que les composantes 1 et 2 qui se trouvent à gauche du point d’inflexion
(le coude, point 3). Sur le plan graphique, on trace une droite qui rejoint les
composantes(3,4,5,6,7) situées à droite . Ces composantes apportent le moins
d’information et seules celles situées au dessus du coude sont maintenues.
 un autrecritère
Boite de dialogue « Extraction»
 Donc, le scree plot nous aide à déterminer le nombre de

composantes principales qui nous fournissent un pourcentage
non négligeable d’information . On peut revenir au bouton
« extraction » et on fixe à 2 en « Nombre de facteurs à
extraire » ou on force « Facteurs à extraire » à 2 dès le début
de l’analyse .
On revient encore une fois au table de « Variance totale
expliquée ». Dans la colonne « Total » qui indiquent les valeurs
propres initiales (Initial Eigenvalues) , seules les valeurs propres supérieures à
3- Interprétation
1 (le critèrede l’analyse
de Kaiser en composante
) sont principale
retenues (2,890 et 1,698). De ce fait ,
uniquement les composantes 1 et 2 sont maintenues. Elles
concentrent plus de variances que les variables initiales . Pour cela que les
1er et 2ème axes sont ceux qui restituent le maximum d’information. En d’autres
termes, ils représentent environ 65,552% de la variance totale parmi les 30 items.
Le 1er pour un pourcentage de 41,290 et le 2ème pour 24,262%. Ensemble les 2
composantes concentrent à elles seules 65,552 %. (dans la colonne cumulative % )
des informations apportées par les 7 variables de départ.
Cela signifie que la 1ère composante a une valeur propre de 2,890 et explique
environ 41,290 % de la variance, la 2ème composante à une valeur propre de 1,698
La table qualité de représentation (Communalities), la colonne
extraction de cette table , nous indique pour chaque variable la part de la variance
expliquée par la solution à 2 composantes. Si on parcoure les valeurs nous pouvons
dire que toutes les valeurs sont supérieures à 65,552 %. le niveau global de
variances. Seule la valeur de 0,142 sort du lot, cela indique que cette variable n’est
corrélée à aucune autre variable.
Interprétation de l’analyse encomposante
principale (suite)
Dans la matrice ci-contre, on peut le voir, les 2 composantes
ont une corrélation égale à zéro. Elle montre les corrélations (
de -1 à +1) entre les variables et les composantes.
Interprétation des principales composantes est basée sur la
recherche de variables qui sont le plus fortement corrélées
avec chaque composante, c'est-à-dire quelles sont celles qui
ont de grande valeur et les plus éloignés de zéro dans leur
direction positive ou négative. Ici, une valeur de corrélation
supérieure à 0,5 est jugée importante. Ces corrélations sont
indiquées dans le table ci-contre.
La 1ère composante principale est fortement corrélée avec quatre variables originales. Cette
composante augmente avec l'augmentation de l'atelier, théorie de projet, dessin et HCA. Cela indique
que ces quatre variables varient ensemble. Si l’une augmente, les trois autres ont tendance à faire la même
chose. Donc, cette composante peut être considérée comme une mesure de l'atelier, théorie de projet,
dessin et HCA. De plus, nous voyons que la première composante est la plus fortement corrélée avec la
théoriede projet.
En fait, on pourrait affirmer que sur la base de la corrélation de 0,881 que cette composante principale
est avant tout une mesure de la théorie de projet. Il s'ensuivrait que les valeurs élevées ont tendance à
prouver que les étudiants travaillent beaucoup et assistent aux cours et participer activement aux
différents débats sur l'architecture. Aussi, la grande valeur des corrélations montre clairement que l'atelier,
théorie de projet, dessin et HCA sont des modules de base pour la 1ère année architecture et qu’il faut
bien maitriser leurscontenus.
Interprétation de l’analyse en composantes
principales (suite)
 2ème composante principale
La deuxième composante principale augmente avec seulement deux
variables: physique et mathématiques. On y constate que ces deux
variables ont des saturations élevées sur le 2ème facteurs. Ces deux
matières ne sont pas corrélées avec celles de la 1ère composante. Cela signifie
qu’être bon en physique et mathématiques n’est pas toujours une preuve
suffisante pour attester que cet étudiant est apte à être réceptif aux études
en architecture.
Par contre, les deux variables sont bien corrélées et une augmentation de
l’une entraine une augmentation de l’autre.
Chaque point représente une variable . Sur le diagramme on peut voir deux
groupes de variables qui ne sont pas corrélés. Le 1er est constitué de l'atelier,
théorie de projet, dessin et HCA et le 2ème de la physique et des mathématiques . Ces
derniers sont de grande valeur pour la 2ème composante principale . Aussi, les
étudiants ont des bonnes notes dans les modules d’atelier, théorie de projet, dessin
et. La variable TMC, pour la 2ème composante, occupe une position isolée du fait de sa
très faible valeur et puis elle n’est corrélée à aucune variable.

Cours de l'ACP

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours de l'ACP

Uploaded by

Copyright:

Available Formats

Université IBN ZOHR

Ecole Nationale de Commerce et de Gestion Dakhla

ANALYSE factorielle des

Chapitre.1: analyse en composantes principales

Qu'est-ce que l'analyse factorielle? A quoi çà sert?

Qu'est-ceque l'analyse factorielle? A quoi çà sert?

Qu'est-ce que l'analyse factorielle? A quoi çà sert?

Le but des analyses factorielles est de résumer de grands tableaux numériques en

- L'analyse en composantes principales (ACP) cherche une solution à l'ensemble de

-Pour qu'une variable soit intégrée dans l'analyse, sa distribution doit

-Idéalement, on cherche une structure simple, c'est-à-dire une solution où

- La structure factorielle peut être différente pour différentes populations. Il faut

- Les variables utilisées pour l'analyse devraient se distribuer normalement.

- La matrice de corrélation ne peut pas être singulière pour ce qui

- La matrice de corrélation doit contenir un patron, une solution factorielle.

Ce sous espace est de dimension nettement inférieure, idéalement de dimension 2 de façon à

prenant l’exemple du tableau à 96 lignes (individus) et 2 colonnes (taux de natalité et de

Lorsqu’il n’y a que deux dimensions Avec trois dimensions (largeur,

Mais au delà de 3 dimensions, il est impossible de représenter les données

Quelle forme a ce nuage de point ( reconnaissance de forme) ?

Quel est le meilleur plan de représentation ? Est-ce l'un des précédents ?

Projeter la réalité sur un plan

Projeter la réalité sur un plan

L’ACP nous propose un point de vue permettant de voir au mieux les

Figure : minimiser (A,A’)² = maximiser (0,A’)²

Les tij sont donc numériques.

Maximiser l'inertie projetée, c'est rendre maximale la somme des distances

a - les distances entre individus ?

b - les plans de projection

Le problème revient donc à trouver u1 qui maximise la forme

Théorème: Le plan expliquant le mieux le nuage de

Une base orthonormée du sous-espace vectoriel de dimension S,

Le maximum est atteint si landa est la plus grande valeur propre de la

La difficulté majeur réside dans le choix de s, c’est-à-dire à partir

La qualité globale de la reconstruction peut être mesurée par :

Ce coefficient est appelé taux d’inertie ou pourcentage de la variance

Figure : F2 calculé sur les résidus de F1 (écarts des points à F1)

Chaque axe factoriel fait intervenir les p variables du tableau de données

Le tableau de départ qui sera soumis à une ACP se présente de la façon

- le centrage n’a pas d’influence sur la ressemblance entre individus

L’information contenue dans cette matrice est donnée par le

projection orthogonale Fij (la coordonnée) d’un point i du

nuage des n points est donnée par le produit scalaire du

L'algorithme de l’ACP est traité par les étapes suivantes:

Les p variables (colonnes) du tableau D de données sont centrées.

Algébriquement, le centrage des variables élimine l’ordonnée à l’origine dans

Une fois opérée la transformation du tableau initial D en tableau D’ (centré) ou D’’

- la covariance entre variables i et j si D a été centré en D’

Les droites D1 et D2 sont des caractères synthétiques obtenus par des

La première composante principale "capture" le maximum d’inertie du tableau des données.

La deuxième composante principale est un complément, une correction de la première.

Il n’y a pas de redondance d’information entre deux composantes principales.

On calcule les autres composantes de la même manière.

 Matrice des corrélations: Corrélations entre l’ensemble des couples de variables;

 Matrice des corrélations reconstituée: A partir des composantes sélectionnées;

 Vecteur propre: Représente les coefficients factoriels;

 Matrice des loadings: Corrélations entre les variables et les facteurs;

 Rotation: Technique qui consiste à pivoter les facteurs avec un angle θ;

être compris en 0,5 et 1;

 Pourcentage de variance (inertie): Part de la variance totale attribuée à chaque facteur;

Formuler le Calculer la Extraire les Interpréter Calculer les Estimer

Les avantages fondamentaux

• Le sondage est réalisé sur un échantillon de 30 personnes