ACP Cours 2021

Université de Jijel
Faculté des sciences exactes et informatique

Département d’informatique
1ère année Master (ILM & SIAD)
Chapitre 3: L’analyse en composantes

principales (A.C.P.)
2020-2021
Les méthodes factorielles
Les méthodes factorielles consistent en la projection sur un

espace de dimension inférieure pour obtenir une visualisation
de l’ensemble des liaisons entre variables tout en minimisant la
perte de l’information.
Elles cherchent à réduire le nombre de variables en les
résumant par un petit nombre de composantes synthétiques.
Cours Analyse de données

Les méthodes factorielles
Les principales techniques factorielles sont :
 L’analyse en composantes principales (Hotelling, 1933) qui

analyse un ensemble de données (observations) faites sur un
ensemble de variables quantitatives (numériques).
 L’analyse des correspondances (Benzekri, 1964) qui est une
technique de base pour analyser des tables de contingence qui
peut être utilisée pour des variables qualitatives.
 L’analyse canonique.(Hotelling) la Régression multiple et
l’analyse discriminante comme des cas particulier.

L’analyse en composantes principales
L’ACP (Hotelling, 1933) a pour objectif de réduire le nombre de

données, souvent très élevé, d’un tableau de données
représenté, algébriquement, comme une matrice et,
géométriquement comme un nuage de points.
L’ACP consiste en l’étude des projections des points de ce nuage
sur un axe (axe factoriel ou principal), un plan ou un hyperplan
judicieusement déterminé.
Mathématiquement, on obtiendrait le meilleur ajustement du
nuage par des sous-espaces vectoriels.

Projeter la réalité sur un plan
• Lorsqu’on projette les données sur

un plan, on obtient un graphique
déformé de la réalité.
La meilleure projection =
•la plus « suggestive »
•La moins déformante
•La vue la plus fidèle de la forme réelle
du nuage Figure de J.P. Fenelon
•la vue la plus vaste de l’objet
Le rôle de l’ACP est de trouver des espaces de dimensions

plus petites minimisant les déformations.

L’ACP
Données :
p variables quantitatives observées sur n individus.
1 2 j p
X X X X
x11 x1j x1p
x12 x2j x2p
X n xi xij xip individu i
1
(n,p)
x1n xnj xnp

INDIVIDU = Élément de Rp
Variable Xj
VARIABLE = Élément de Rn
p

L’ACP
L’A.C.P. permet d’explorer les liaisons entre variables et

les ressemblances entre individus.
Résultats :
 Visualisation des individus
(Notion de distances entre individus)
 Visualisation des variables
(en fonction de leurs corrélations)

Deux nuages de points
Le tableau peut être vu comme un ensemble de lignes ou un ensemble de
colonnes.
Etude des individus Etude des variables

1 j P 1 j P
1 1
i X p i X
R n
R
n n
var 1 Ind 1
Var j ind i

Nuage des individus
A chaque individu noté ei, on peut associer un point dans

Rp = espace des individus.
A chaque variable du tableau X est associé un axe de Rp.
X3
x 3i
ei Impossible à
visualiser dès
que p > 3.
xi1
X1
x2i
X2

Principe de l’ACP
On cherche une représentation des n individus , dans un sous-

espace Fk de Rp de dimension k ( k petit 2, 3 …; par exemple un
plan)
Autrement dit, on cherche à définir k nouvelles variables
combinaisons linéaires des p variables initiales qui feront
perdre le moins d’information possible.
Ces variables seront appelées : composantes principales

les axes qu’elles déterminent : axes principaux

Principe de l’ACP
X1
2
axe 2
X
On visualise
axe 1
Xi
F3
p axe 3
R
axes principaux

Perdre le moins d’information possible
Fk devra être « ajusté » le mieux possible au nuage

 des individus: la somme des carrés des distances
des individus à Fk doit être minimale.
Fk est le sous-espace tel que le nuage projeté ait une

 inertie (dispersion) maximale.
 et  sont basées sur les notions de :

− distance
− projection orthogonale

ei
ej
2 fi
i
j fj
i j 1
La distance entre fi et fj est inférieure

ou égale à celle entre ei et ej

Choix de la distance entre individus
yB B
Dans le plan:
A d 2 A, B x B  x A 2  y B  y A 2
yA
xA xB
Dans l’espace Rp à p dimensions, on généralise cette notion : la

distance euclidienne entre deux individus s’écrit:

e i  x1i x 2i ... x ip  e j  x1j x 2j ... x pj 
  
d 2 e i ,e j  x 1i  x 1j  
2
 x 2i  x 2j 
2

 ... x ip  x pj 
2
   
p
2
d2 e i ,e j  x ik  xk
j
k1

Point moyen ou centre de gravité
• On appelle le point moyen ou centre de

gravité le vecteur G des moyennes
arithmétiques de chaque variable: o
o𝑖 oo
o o
o o
G  x1, x 2, x 3,..., x q  oo
𝐺
o
o o o o o
o
• Lorsqu’on analyse des variables centrées,
ce point moyen G sera le centre du
repère considéré: G  O

Inertie totale du nuage de points
On appelle inertie totale du nuage de points, et on la note Ig = mesure

de dispersion des points au sein du nuage
= somme pondérée des carrés des distances par rapport au centre de
gravité G du nuage
n
I g   1 d 2 e i , g 
i1
n
ou de façon plus générale
n
e , g
n
I g  p i d 2
i avec  pi = 1
i1 i1

Équivalence des deux critères concernant la perte d’information
ei
Projection orthogonale
du nuage sur un sous-
espace
fi
F g
Soit F un sous-ensemble de Rp
f i la projection orthogonale de e i sur F
2 2
ei  g  ei  f i  f ig i  1 ... n
2

On va chercher F tel que :
 p i ei  f i
i1
2
soit minimal
ce qui revient d’après le théorème de Pythagore à maximiser :
n

2
pi f i  g
i1

2 2
ei  g  ei  f i  f ig i  1 ... n
2
Donc :
Inertie minimiser cette 

maximiser
totale quantité (carrés des l’inertie du
distances entre nuage projeté
points individus et
leurs projections)

Centrage de données
• Le centrage est réalisé de façon systématique en ACP
Translation du centre de gravité du nuage sur

l'origine G
• Centrer les données ne modifie pas la forme du nuage

⇒ toujours centrer

Réduction des données
+++ + +
190
19
15
+ +
+ ++ +
++ +
++ +
+ +
10
180
++
18
Taille (en m)
Taille (en cm)

+
Taille (en m)
+ +
+ ++ +
+
5
++ + +
170
+ + +++++++++++++++++ +++++++++++++++++++++ +
++ ++
1.7
+
++ + +
0
+ +
+
++ +
+
160
++
−5
+ + + + +
1.6
+
+ +
+ +
+
−10
+
150
+
1.5
55 60 65 70 75 80 85 55 60 65 70 75 80 85 −20 −10 0 10 20
poids (en kg) poids (en kg) poids (en quintal)
• Plus la variable a un écart-type élevé, plus elle apporte de l'inertie en projection

et plus elle « attire les axes ».
• Or, l'écart type dépend directement de l'unité de mesure...

• Pour éviter d'accorder une plus grande importance aux variables exprimées
arbitrairement avec de plus grandes valeurs, on réduit les variables
• Chaque variable a le même écart-type = 1 (donc la même longueur)
Lorsque les variables sont exprimées dans des unités de mesure différentes,
 réduction systématique des données
En cas d’unités de mesure identiques ?

Réduction : consiste à accorder une même importance à chaque variable
Non réduction : accorde plus d’importance aux variables de forte dispersion

• Réduire ou normer donne la même dispersion, une même importance, à

chaque variable (dans l'espace, elles ont même longueur : 1)
 On dit que l'on réalise une ACP normée
• Ne pas réduire ou ne pas normer laisse à chaque variable son écart-type

initial ce qui conduit à accorder à chaque variable une importance
proportionnelle à son écart-type.
 On dit que l'on réalise une ACP non normée (simple)

Recherche des axes factoriels
La recherche d’axes portant le maximum d’inertie équivaut à la

construction de nouvelles variables (auxquelles sont associés ces
axes) de variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de
façon à se placer dans un nouveau système de représentation où le
premier axe apporte le plus possible de l’inertie totale du nuage, le
deuxième axe le plus possible de l’inertie non prise en compte par le
premier axe, et ainsi de suite.
Cette réorganisation s’appuie sur la diagonalisation de la matrice de
variances-covariances (matrice de corrélations pour des données
centrées-réduites).

Recherche des axes factoriels
Les axes principaux sont ceux maximisant la variance projetée.

Ce sont les vecteurs propres normés associés aux plus grandes valeurs
propres de la matrice de covariance/corrélation.
On extrait :
-les vecteurs propres normés à 1 (axes de direction ou axes factoriels)
-les valeurs propres (inerties associées aux axes)
Le premier axe est celui associé à la plus grande valeur propre .

On le note u1
Le deuxième axe est celui associé à la deuxième valeur propre . On
le note u2
...
Composantes principales
 À chaque axe est associée une variable appelée composante

principale. La composante c1 est le vecteur renfermant les
cordonnées des projections des individus sur l’axe 1.
 La composante c2 est le vecteur renfermant les cordonnées
des projections des individus sur l’axe 2.
 Pour obtenir ces coordonnées, on écrit que chaque composante
principale est une combinaison linéaire des variables initiales.

Propriétés des composantes principales
 La variance d’une composante principale est égale à l’inertie

portée par l’axe principal qui lui est associé.
 Les composantes principales sont centrées.
 Les composantes principales sont non corrélées deux à
deux. En effet, les axes associés sont orthogonaux.

Représentation des individus
La jème composante principale fournit les
coordonnées des n individus sur le jème axe principal.
Si on désire une représentation plane des individus, la

meilleure sera celle réalisée grâce aux deux premières
composantes principales.

L’inertie est donc aussi égale à la somme des variances
des variables étudiées.
En notant V la matrice de variances-covariances :
p
I g   s2i
i1
Ig  Tr V
Remarque
Dans le cas où les variables sont centrées réduites, la variance de
chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).

Qualité de représentation
Pour chaque individu , la qualité de sa représentation est

définie par le carré du cosinus de l’angle entre l’axe de
vecteur e i . Plus la valeur est proche
projection et le de 1, meilleure est la
qualité de représentation.
En général, les qualités de représentation sont données axe par
axe. Pour avoir la qualité de représentation dans un plan, on
additionne les critères correspondant aux axes étudiés.
Ce critère n’a pas de signification pour les individus
proches de l’origine.

Représentation des variables
Les proximités entre les composantes principales et les variables

initiales sont mesurées par les covariances, et surtout les corrélations.
 
r cj , x i c j
est le coefficient de corrélation linéaire entre et x i
c2
 
x
r c2 , xi
r c1 , x i  c1
CERCLE DES CORRÉLATIONS

Représentation des variables
Le cercle des corrélations est la projection du nuage des variables sur

le plan des composantes principales.
c2
corrélation = cosinus
c1
Les variables bien représentées sont
celles qui sont proches du cercle,
celles qui sont proches de l’origine
sont mal représentées.

ACP Cours 2021

Uploaded by

Copyright:

Available Formats

You might also like

ACP Cours 2021

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ACP Cours 2021

Uploaded by

Copyright:

Available Formats

Université de Jijel

Faculté des sciences exactes et informatique

Chapitre 3: L’analyse en composantes

Les méthodes factorielles consistent en la projection sur un

Cours Analyse de données

Les principales techniques factorielles sont :

 L’analyse en composantes principales (Hotelling, 1933) qui

Cours Analyse de données

L’ACP (Hotelling, 1933) a pour objectif de réduire le nombre de

Cours Analyse de données

• Lorsqu’on projette les données sur

Le rôle de l’ACP est de trouver des espaces de dimensions

Cours Analyse de données

x1n xnj xnp

Cours Analyse de données

L’A.C.P. permet d’explorer les liaisons entre variables et

Cours Analyse de données

Etude des individus Etude des variables

Cours Analyse de données

A chaque individu noté ei, on peut associer un point dans

Cours Analyse de données

On cherche une représentation des n individus , dans un sous-

Ces variables seront appelées : composantes principales

Cours Analyse de données

Cours Analyse de données

Fk devra être « ajusté » le mieux possible au nuage

Fk est le sous-espace tel que le nuage projeté ait une

 et  sont basées sur les notions de :

Cours Analyse de données

La distance entre fi et fj est inférieure

Cours Analyse de données

Dans l’espace Rp à p dimensions, on généralise cette notion : la

Cours Analyse de données

• On appelle le point moyen ou centre de

Cours Analyse de données

On appelle inertie totale du nuage de points, et on la note Ig = mesure

ou de façon plus générale

Cours Analyse de données

Cours Analyse de données

On va chercher F tel que :

ce qui revient d’après le théorème de Pythagore à maximiser :

Cours Analyse de données

Inertie minimiser cette 

Cours Analyse de données

• Le centrage est réalisé de façon systématique en ACP

Translation du centre de gravité du nuage sur

• Centrer les données ne modifie pas la forme du nuage

Cours Analyse de données

Taille (en cm)

poids (en kg) poids (en kg) poids (en quintal)

• Plus la variable a un écart-type élevé, plus elle apporte de l'inertie en projection

Cours Analyse de données

En cas d’unités de mesure identiques ?

Cours Analyse de données

• Réduire ou normer donne la même dispersion, une même importance, à

• Ne pas réduire ou ne pas normer laisse à chaque variable son écart-type

Cours Analyse de données

La recherche d’axes portant le maximum d’inertie équivaut à la

Cours Analyse de données