You are on page 1of 49

www.deenov.

com
Alain Morineau Page 1 DeeNov


Prambule ................................................................................................................... 2
INTRODUCTION ................................................................................................................. 2
BREF HISTORIQUE DE LACP ............................................................................................ 4
DOMAINE D'APPLICATION ................................................................................................. 5
INTERPRETATIONS GEOMETRIQUES ................................................................................... 6
a
-
Pour les n individus .............................................................................................. 6
b
-
Pour les p variables ............................................................................................... 7
c
-
Notion dlments actifs et illustratifs ................................................................... 7
ANALYSE DU NUAGE DES INDIVIDUS ................................................................................. 9
a
-
Comment voir les distances entre individus ? ....................................................... 9
b
-
Comment trouver les plans de projection ............................................................ 10
c
-
Principe de l'ajustement ....................................................................................... 11
d
-
Distance entre individus ...................................................................................... 13
e
-
Matrice diagonaliser......................................................................................... 14
f
-
Composantes Principales ..................................................................................... 15
PROJECTIONS DES VARIABLES ........................................................................................ 17
a
-
Nature de la projection ........................................................................................ 17
b
-
Facteur de taille .................................................................................................. 20
c
-
Les matrices implicites des distances .................................................................. 20
INDIVIDUS ET VARIABLES SUPPLEMENTAIRES ................................................................. 21
a
-
Individus supplmentaires ................................................................................... 22
b
-
Contribution dun individu la fabrication dun axe .......................................... 22
c
-
Qualit du positionnement dun point .................................................................. 23
d
-
Notion de reprsentation simultane en ACP ...................................................... 25
e
-
Dtails sur la reprsentation simultane ............................................................. 25
f
-
Variables continues supplmentaires ................................................................... 28
g
-
Variables nominales supplmentaires ................................................................. 30
LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST ......................................... 33
a
-
Principe ............................................................................................................... 33
b
-
La valeur-test pour la caractrisation des modalits .......................................... 34
c
-
La valeur-test pour la caractrisation des axes ................................................... 36
d
-
Les valeurs-tests et le Data mining. ..................................................................... 37
ACP NON NORMEE .......................................................................................................... 40
Retenir lessentiel ..................................................................................................... 42
RELATIONS ENTRE LES AJUSTEMENTS DES 2 NUAGES ..................................................... 43
RECONSTITUTION APPROCHEE. COMBIEN DAXES RETENIR ? .......................................... 45
GLOSSAIRE SUCCINCT ..................................................................................................... 47
QUELQUES REFERENCES ................................................................................................. 49


www.deenov.com
Alain Morineau Page 2 DeeNov
Prambule

Ce document, tlchargeable sur le site www.deenov.com, illustre les
diffrents aspects de lanalyse en composantes principales, ses
fondements, ses caractristiques techniques et pratiques, ses domaines
dapplication et ses rgles dinterprtation. Il constitue aussi une
introduction lutilisation de la mthode et comporte les principaux
dveloppements techniques.

En complment, on pourra se procurer, la page Formation du site
www.deenov.com, un support de formation cette technique. Ce
support inclut plus de 100 diapositives animes, rparties en plusieurs
chapitres et largement commentes de vive voix.

La formation en question sappuie sur une prsentation visuelle
accompagne dun commentaire audio complet. Le texte peut tre
visualis en mme temps que les commentaires des diapos seront
couts. Lutilisateur navigue librement entre les chapitres, les rcoute
volont et fait les pauses qui lui conviennent.

Introduction

Le contexte

Lanalyse en composantes principales, souvent note ACP, fait partie des
techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du
Data mining tel quil est mis en uvre par exemple dans le logiciel SPAD dont
nous avons dirig le dveloppement jusquen 2004. Ces techniques dexploration
sont excutes dans le cadre d'enchanements de procdures complmentaires
de visualisation et de synthse utilises pour dmler la complexit et la
redondance des donnes brutes et faire merger des informations caches dans
les donnes.

L'opration de l'Analyse de Composantes Principales consiste passer dun
tableau des donnes brutes, contenant toute l'information recueillie sur le
phnomne que nous souhaitons tudier, certaines reprsentations visuelles
des donnes. Cette opration entranera une certaine perte "d'information" que
lon essaie de minimiser. En change, on obtient un gain en "signification", en
particulier grce aux reprsentations graphiques. Autrement dit, on passe du
"magma" des donnes dorigine des graphiques interprtables par l'utilisateur.
Pour l'interprtation, il est important d'avoir un minimum de connaissances sur le
fonctionnement de l'ACP et la naturevdes rsultats qu'elle produit.

On trouvera une prsentation dtaille des mthodes dans les ouvrages cits en
bibliographie : "Technique de la Description Statistique" (Lebart, Morineau,
Tabard, 1977), et "Traitement des Donnes Statistiques" (Lebart, Morineau,
Piron, 1995, 2006). L'ouvrage "Multivariate Descriptive Statistical Analysis"
(Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des
exemples d'application et incluant la description des techniques.



www.deenov.com
Alain Morineau Page 3 DeeNov
Les techniques multidimensionnelles

Le dveloppement de ces techniques procde de l'effet conjugu de plusieurs
facteurs : la possibilit de traiter des tableaux de donnes complexes et de
grandes tailles, le regain d'intrt suscit par de tels tableaux, la possibilit
dexcuter des algorithmes complexes et le dsir de s'affranchir dhypothses
techniques de commodit souvent irralistes.

Schmatiquement, ces techniques comprennent deux familles de mthodes: les
mthodes faisant appel l'algbre linaire, dsignes en France sous le nom de
mthodes factorielles, et les techniques de classification automatique.

A. Morineau A. Morineau 3 3 DeeNov DeeNov, 2005 , 2005
F
1
F
2
Visualisation
dans le "meilleur"
espace rduit
Classification
(dans l'espace complet)
Prsentation
invisible
dans l'espace
complet
Ana. factorielles
et
Classifications


Les techniques factorielles

Il est toujours possible de calculer des distances entre lignes et entre colonnes
d'un tableau rectangulaire de valeurs numriques. Ces distances peuvent
s'interprter en termes de corrlations ou de similarits. En revanche, il n'est pas
possible de visualiser ces distances de faon exacte: il est ncessaire de procder
des transformations ou des approximations pour en obtenir une reprsentation
plane. C'est l'une des tches dvolues l'analyse factorielle : oprer une rduction
de dimension de certaines reprsentations "multidimensionnelles".

A. Morineau A. Morineau 4 4 DeeNov DeeNov, 2005 , 2005
Visualisation Visualisation et Ana. de et Ana. de donn donn es es
Eclairage Eclairage d d un un objet objet 3D et 3D et
sa sa visualisation visualisation sur sur des des
plans de projection plans de projection
Certaines Certaines projections projections
apportent apportent plus plus
d d information information que que
d d autres autres
La La cl cl de de l l anayse anayse
factorielle factorielle est est dans dans le le
choix choix des des meilleures meilleures
projections projections


www.deenov.com
Alain Morineau Page 4 DeeNov
Les techniques factorielles reposent toutes sur une proprit mathmatique des
tableaux rectangulaires : la dcomposition aux valeurs singulires (dcomposition
due Eckart et Young).

Cette proprit qui concernera le tableau de donnes lui-mme, et non pas
seulement la matrice de corrlation ou un tableau de distances construit partir
des donnes, a ceci de remarquable qu'elle implique de faon similaire les lignes
et les colonnes du tableau, et donc en gnral les individus (lignes) et les
variables (colonnes). Cette "restitution des individus la statistique",
essentiellement due Jean-Paul Benzcri, induit une attitude nouvelle vis--vis
des traitements statistiques des donnes multidimentionnelles.

Bref historique de lACP

Conue par Karl Pearson en 1901, intgre la statistique
mathmatique par Harold Hotelling en 1933, l'analyse en composantes
principales (ACP) n'est vraiment utilise que depuis la large diffusion
des moyens de calcul informatique.
La technique d'analyse en composantes principales peut tre prsente
de divers points de vue. Pour le statisticien classique, il s'agit de la
recherche des axes principaux de l'ellipsode d'une distribution normale
multidimensionnelle, ces axes tant estims partir d'un chantillon.
C'est la prsentation initiale de Hotelling (l933), puis celle des manuels
classiques d'analyse multivarie.
Pour le factorialiste classique, il s'agit d'un cas particulier de la mthode
d'analyse factorielle des psychomtriciens (cas de variances spcifiques
nulles ou gales).
Enfin, du point de vue plus rcent des analystes de donnes, il s'agit
d'une technique de reprsentation des donnes, ayant un caractre
optimal selon certains critres algbriques et gomtriques, et que l'on
utilise en gnral sans rfrence des hypothses de nature statistique
ni un modle particulier.

Ce point de vue, fort rpandu actuellement est peut-tre le plus ancien.
C'est celui qui avait t adopt par Pearson (1901). Bien entendu, il ne
s'agissait pas de l'analyse en composantes principales telle que nous la
prsentons, mais les ides essentielles de la mthode taient dj
prsentes par cet auteur.

L'analyse en composantes principales prsente de nombreuses variantes
selon les transformations apportes au tableau de donnes : le nuage
des points-individus peut tre centr ou non, rduit ou non. Parmi ces
variantes, l'analyse en composantes principales norme (nuage centr-
rduit) est certainement la plus utilise et c'est celle-ci que nous
choisissons pour prsenter les principes de l'analyse.

www.deenov.com
Alain Morineau Page 5 DeeNov
Domaine d'application
L'utilisateur de l'analyse en composantes principales se trouve dans
la situation suivante : il possde un tableau rectangulaire de
mesures, dont les colonnes figurent des variables valeurs
numriques continues (des mensurations, des taux, etc.) et dont les
lignes reprsentent les individus sur lesquels ces variables sont
observes.
D'une manire gnrale, la condition que doivent remplir ces
tableaux numriques pour tre l'objet d'une description par l'analyse
en composantes principales est la suivante : l'une au moins des
dimensions du tableau (les lignes en gnral) est forme d'units
ayant un caractre rptitif, l'autre pouvant tre ventuellement plus
htrogne.
Les lignes (qui ont ce caractre rptitif) sont dsignes en gnral
sous le nom d'individus ou d'observations, les colonnes tant
dsignes sous le nom de variables.
A titre desemple, nous considrons le tableau X des mesures prises
sur quelques milliers dindividus actifs concernant leurs temps
d'activits quotidiennes. On dispose par exemple de 16 variables
dcrivant des temps d'activit, en minutes par jour (sommeil, repos,
repas chez soi, etc.).

A. Morineau A. Morineau 1 1 DeeNov DeeNov, 2005 , 2005
Tableau des donn Tableau des donn es es
Individus
statistiques
(centaines, milliers)
continues
nominales
ordinales
textuelles
etc. ...
Variables
(dizaines, centaines)
X
(n,p)


Le tableau X aura donc en colonne les mesures caractrisant ces
observations. Le terme gnral x
ij
de ce tableau dcrit la dure de
l'activit j de lindividu i. Lobjectif est de donner une ide de la
structure de l'ensemble des 16 activits, ainsi que des similitudes
ventuelles de comportement entre les groupes d'individus.
www.deenov.com
Alain Morineau Page 6 DeeNov
Interprtations gomtriques
Les reprsentations gomtriques entre les lignes et entre les
colonnes du tableau de donnes permettent de visualiser les
proximits entre les individus et entre les variables.

A. Morineau A. Morineau 11 11 DeeNov DeeNov, 2005 , 2005
Principe g Principe g om om trique de l trique de l ACP ACP
X(n,p)
R
n
Liaisons entre variables
R
p
Ressemblance entre individus
i
i'
j j'

a
-
Pour les n individus
Dans l'espace p coordonnes o se trouvent les individus, les
n(n-1) distances attaches aux couples de points individus
ont une interprtation directe pour l'utilisateur :
2 2
'
1
( , ) ( )
p
ij i j
j
d i i x x
=
' =


Il s'agit ici de la distance euclidienne classique. Deux points sont
trs voisins si, dans l'ensemble, leurs p coordonnes sont trs
proches. Les deux individus concerns sont alors caractriss par
des valeurs presque gales pour chaque variable. Dans l'exemple
voqu ci-dessus, deux individus reprsents par des points
proches consacrent les mmes temps aux mmes activits.
A. Morineau A. Morineau 12 12 DeeNov DeeNov, 2005 , 2005
Similitude entre individus Similitude entre individus
La La meilleure meilleure image approch image approch e du nuage en e du nuage en
projection sur une droite H : respecter au mieux les projection sur une droite H : respecter au mieux les
inter inter- -distances entre tous les couples distances entre tous les couples
Nuage de n
points
individus
dans R
p
( ) ( )
2
2
'
1
, '
p
ij i j
j
d i i x x
=
=

(H)
( )
2
'
, '
H H
i i
Max d i i

`
)


www.deenov.com
Alain Morineau Page 7 DeeNov
b
-
Pour les p variables
Si les valeurs prises par deux variables particulires sont trs
voisines pour tous les individus, ces variables seront reprsentes
par deux points trs proches dans lespace n coordonnes o elles
se trouvent. Cela peut vouloir dire que ces variables mesurent une
mme chose ou encore qu'elles sont lies par une relation
particulire.
Toutefois la dfinition de ces proximits dans les deux espaces est
assez fruste. Des problmes d'chelle de mesure se posent d'emble :
par exemple, le temps consacr au sommeil est toujours beaucoup
plus important que le temps pass la lecture.
A. Morineau A. Morineau 13 13 DeeNov DeeNov, 2005 , 2005
Liaisons entre les variables Liaisons entre les variables
Une variable est d Une variable est d finie par les n valeurs qu finie par les n valeurs qu elle elle
prend sur les individus prend sur les individus
Les variables sont centr Les variables sont centr es r es r duites duites
On a donc pour la variable On a donc pour la variable j j : :
C C est l est l quation d quation d une sph une sph re de rayon 1 : les re de rayon 1 : les
vecteurs variables sont donc des points sur la vecteurs variables sont donc des points sur la
surface d surface d une sph une sph re dans re dans
n n
n
2 2
1
i 1
( , ) 1
i n
d O j x
=
= =



Par ailleurs, dans un cadre plus gnral, comment calculer la
distance entre deux variables si l'une est exprime en centimtre et
l'autre en kilogramme? Comment interprter un loignement moyen
dans R
p
? Est-ce que deux individus assez proches dans R
p
ont des
valeurs assez voisines pour chacune des variables, ou au contraire
trs proches pour certaines et loignes pour d'autres? L'analyse en
composantes principales norme permet de donner des lments de
rponses ces questions.
c
-
Notion dlments actifs et illustratifs
Le tableau de donnes contient une assez grande quantit de
variables, ce qui est une caractristique habituelle des tudes
appliques. En fait les variables peuvent se regrouper selon des
thmes. Si lanalyse cherche comparer des villes en fonction des
caractristiques de leur population, on trouvera une srie de
variables relatives aux dpenses sur diffrents postes (vtement,
loyer, vhicule, services, etc.) dont lensemble doit concourrir
www.deenov.com
Alain Morineau Page 8 DeeNov
donner une ide de la chert de la vie. D'autres variables informent
sur le niveau des salaires, rpartis selon 12 professions. Enfin,
d'autres variables donnent plutt une ide du mode de vie, comme
les congs pays, les jours de travail, etc.
Pour comparer les villes entre elles, il est certes possible de prendre
en compte toutes les variables disponibles. Cela conduira ici
comparer les villes en tenant compte simultanment du niveau des
prix, des salaires, des impts, des heures ncessaires pour acqurir
un hamburger, etc. Les diffrences observes entre les villes sont
alors difficiles interprter car elles peuvent avoir des causes
multiples et de nature trs diffrentes.
Il est plus raisonnable de slectionner un groupe de variables, ce
groupe tant homogne par rapport un thme bien dfini, et
cohrent avec l'objectif propre de l'tude. Un thme, cest--dire un
groupe de variables, dfinit un certain point de vue choisi par
lutilisateur pour comparer les individus (ici les villes). Ce faisant,
l'interprtation des proximits entre lments sera plus facile
interprter.
Les variables choisies, appeles variables actives, constituent donc
les seuls lments utiliss pour comparer les lments entre eux. Cela
ne signifie pas que le reste de l'information soit abandonn: il servira
ensuite illustrer ou peut-tre suggrer des explications pour les
similitudes et diffrences observes entre les lments. C'est pour
cela que lon appelle illustratives ou supplmentaires les autres
variables.
Toute analyse statistique commence donc par le choix des lments
actifs.

p=40
n=51
Variables
Variables
actives
Variables
illustratives
V
i
l
l
e
s

Choix du thme actif et des variables illustratives

Dans ce qui suit on sintresse aux lments actifs seuls. Les lments
illustratifs sont introduits plus tard.
www.deenov.com
Alain Morineau Page 9 DeeNov
Analyse du nuage des individus
Nous considrons tout d'abord le nuage des n individus (non
pondrs ou pondrs suivant les ncessits de lanalyse). Nous
voulons, dans l'espace des variables, ajuster le nuage de n points par
un sous-espace une, puis deux dimensions, de faon obtenir sur
un graphique une reprsentation visuelle la plus fidle possible des
proximits existant entre les n individus vis--vis des p variables.
a
-
Comment voir les distances entre individus ?
Situ dans un espace de dimension leve, le nuage des points-lignes
(comme celui des points-colonnes) nest pas visible. Lessentiel de
lanalyse en composantes principales rside dans la recherche dun
plan (appel premier plan factoriel) sur lequel on projette le nuage de
telle sorte que la configuration des points projets sur ce plan soit
aussi semblable que possible la configuration relle des points dans
lespace complet.
Nous y parviendrons en rendant globalement les distances entre les
points projets sur ce plan aussi proches que possible des distances
relles entre les points de l'espace d'origine.
Considrons par exemple le nuage des n points-individus dans
lespace o chaque axe reprsente une variable d'origine. La figure
schmatise la situation dans le cas de 3 variables seulement.

i
i'
var
3

i
i'
Espace d'origine
Espace factoriel
(plan de projection)
var
2
var
1
F
2
F
1
d
X
(i,i')
d
F
(i,i')

Reprsentation du nuage des points- lignes
dans le premier plan factoriel

Il s'agit de trouver le plan tel que, globalement, lensemble des

d
F
(i, i' ) mesurs dans le plan pour tous les couples de points, se
rapproche autant que possible des distances relles

d
X
(i, i' ) mesures
dans l'espace d'origine.
www.deenov.com
Alain Morineau Page 10 DeeNov
b
-
Comment trouver les plans de projection
Lobjectif est de choisir le sous-espace de dimension rduite qui
fournisse le maximum d'information sur la configuration du nuage
d'origine.
Quel plan choisir ? Quel critre d'ajustement entre les distances
relles et les distances projetes peut-on utiliser pour dterminer le
plan de projection?
On cherche le plan qui maximise la dispersion (ltalement) des
points projets:

Max d i i
H H
i i
2
( , ' )
'


formule o H reprsente le sous-espace de projection.
On peut montrer que la somme des carrs des distances entre tous
les couples de points est gale la somme des carrs des distances
au centre de gravit (multiplie par 2n). Pour la recherche du
maximum, on a :

Max d i i Max n d i G
H H H H
i i i
2 2
2 ( , ' ) ( , )
'
=


Ainsi, maximiser la somme des distances projetes revient
maximiser la dispersion autour du centre de gravit dans le plan de
projection.
La formule, qui nest autre que lexpression du thorme de
Pythagore, dcompose la dispersion du nuage (une quantite fixe),
en deux termes: la dispersion dans le plan de projection et un terme
complmentaire qui est la somme des distances des points au plan
de projection (voir la figure).
G
i
H
i
H
d(i,G)

d i G
H
( , )
d i G
H
( , )

Dcomposition de la distance d'un point- ligne au centre de gravit du nuage.

Ainsi, le plan de projection qui assure la dispersion maximale des
points est aussi le plan qui passe au plus prs du nuage (au sens du
critre des moindres carrs).
www.deenov.com
Alain Morineau Page 11 DeeNov
Cest ce quexprime lgalit :

d i G d i G d i G
i
H
i
H
i
2 2 2
( , ) ( , ) ( , ) = +
Par consquent :

Max d i G Min d i G
H
i
H
i
2 2
( , ) ( , )
c
-
Principe de l'ajustement
On va chercher rendre maximum la somme des carrs des
distances entre tous les couples d'individus :

Max
(H )
d
H
2
(i, i' )
i'
n

i
n





`
)
La droite d'ajustement H
1
que lon cherche doit passer au plus prs
du nuage de points sans tre astreinte passer par l'origine.

espace R
p
O


H
0
H
1


Droite d'ajustement du nuage de n points individus
Si h
i
et h
i'
dsignent les valeurs des projections de deux points-
individus i et i' sur H
1
, on a la relation classique :

d
2
(i, i' )
i ,i'
n

= (h
i
h
i'
)
2
i,i'
n

= n h
i
2
i ,i'
n

+ n h
i'
2
i,i'
n

2 h
i
i
n

h
i'
i'
n

= 2n
2
(
1
n
h
i
2

i
n

h
2
) = 2n (h
i

i
n

h )
2

H
1

i
d
(i,i' )
d (i,i')
H
1
h
i
h
i'

i'

O



Projections sur H
1

www.deenov.com
Alain Morineau Page 12 DeeNov
o

h dsigne la moyenne des projections des n individus :


h =
1
n
h
i
i
n


et correspond la projection sur H
1
du centre de gravit G du nuage
dont la j
me
coordonne vaut :


r
j
=
1
n
r
ij
i
n


Par consquent, on a :

d
2
(i, i' )
i ,i'
n

= 2n d
2
i
n

(i,G)
A. Morineau A. Morineau 7 7 DeeNov DeeNov, 2005 , 2005
X
x
i
u
y
y
i
= x
i
u
x
i
y
i
u
0
F
Analyse G Analyse G n n rale : probl rale : probl me me
y = Xu
Maximiser {uXXu}
avec uu = 1


Rendre maximum la somme des carrs des distances entre tous les
couples d'individus revient maximiser la somme des carrs des
distances entre les points et le centre de gravit du nuage G :

Max
( H )
d
H
2
(i, i' )
i , ' i
n





`
)
est quivalent :

Max
( H)
d
H
2
(i, G)
i
n





`
)

Si l'origine est prise en G, la quantit maximiser sera nouveau la
somme des carrs des distances l'origine.
Le sous-espace cherch rsulte de l'analyse gnrale du tableau
transform X, de terme gnral (donnes brutes notes r) :



x
ij
= r
ij
r
j

www.deenov.com
Alain Morineau Page 13 DeeNov

A. Morineau A. Morineau 5 5 DeeNov DeeNov, 2005 , 2005
Meilleur plan de projection Meilleur plan de projection
x
y
z
Nuage
Meilleur plan

A. Morineau A. Morineau 6 6 DeeNov DeeNov, 2005 , 2005
Axes factoriels Axes factoriels
Facteur n1
Facteur n2

d
-
Distance entre individus
La distance entre deux individus i et i' est la distance euclidienne
usuelle.
Il peut exister des valeurs de j pour lesquelles les variables
correspondantes sont d'chelles trs diverses, (exemple : temps pass
au sommeil, temps pass la lecture) ; on veut que la distance entre
deux points soit indpendante des units sur les variables.
Par ailleurs, on peut dsirer, surtout lorsque les units de mesures ne
sont pas les mmes, faire jouer chaque variable un rle identique
dans la dfinition des proximits entre individus : on parle alors
d'analyse en composantes principales norme.
Pour cela on corrige les chelles en adoptant la distance :


d
2
(i, i' ) = (
r
ij
r
i' j
s
j
n
)
2
j =1
p


s
j
dsignant l'cart-type de la variable j :


s
j
2
=
1
n
(r
ij
r
j
)
2
i=1
n


Finalement, nous retiendrons que l'analyse norme dans R
p
du tableau
brut R est l'analyse du tableau X des donnes centres er rduites, de
terme gnral :


x
ij
=
r
ij
r
j
s
j
n

Toutes les variables ainsi transformes sont "comparables" et ont
mme dispersion : s
2
(x
j
) = 1
www.deenov.com
Alain Morineau Page 14 DeeNov
Les variables sont centres rduites, ce qui signifie quon mesure
l'cart la moyenne en nombre d'carts-types de la variable j.
e
-
Matrice diagonaliser
L'analyse du nuage des points-individus dans R
p
nous a amen
effectuer une translation de l'origine au centre de gravit de ce nuage
et changer, dans le cas de l'analyse norme, les chelles sur les
diffrents axes. L'analyse du tableau transform X nous conduit
diagonaliser la matrice C = X'X.
Le terme gnral c
jj'
de cette matrice s'crit :


c
jj '
= x
ij
x
ij '
i
n


soit :

c
jj '
=
1
n
(r
ij
r
j
)(r
ij '
r
j'
)
s
j
s
j'
i
n


c'est--dire :

c
jj '
= cor( j, j' )
c
jj'
n'est autre que le coefficient de corrlation entre les variables j et
j' (d'o l'utilit du coefficient

n introduit au dnominateur dans la
transformation des donnes). La matrice diagonaliser est donc la
matrice de corrlations.


A. Morineau A. Morineau 16 16 DeeNov DeeNov, 2005 , 2005
Distance entre variables Distance entre variables
( ) ( ) ( )
2
, 2 1 , d j k cor j k =
Distance base sur
la corrlation
cor(j,k) ~ 1
d(j,k) ~ 0
( d ~ 0 )
cor(j,k) ~ -1
d(j,k) ~ 2
( d ~ 4 )
cor(j,k) ~ 0
d(j,k) ~ \2
( d ~ 2 )
k
k
k
j
j
o
o o
j


Corrlations et distances entre points-variables
www.deenov.com
Alain Morineau Page 15 DeeNov
f
-
Composantes Principales
Nous allons considrer en premier lieu le nuage de points-ligne.
Dans cet espace, il s'agit de dcomposer l'inertie de ce nuage selon
une srie de directions orthogonales.
Nous allons commencer par le sous-espace le plus simple, c'est
dire une ligne droite. Nous pouvons imaginer une droite dfinie par
un vecteur de longueur unit u. Nous essayerons de dfinir u de telle
manire que les projections des points sur cette direction aient une
inertie maximale (voir la figure). Les distances reprsentes entre
couples de points doivent tre aussi proches que possible des
distances relles entre points.
La projection (ou coordonne) d'un point sur la direction dfinie par
le vecteur unitaire u, est gale :

i ij j
j
p
x u =
=

1

par consquent, l'inertie (ou variance) de tous les points projets sur
u sera :
p
i i
i
n

2
1
=
=

Matrice des donnes


i
u
u
i
+

i

Projection d'un point-ligne sur la direction dfinie par un vecteur unitaire

Il s'agit donc de chercher la droite u qui rende maximale la valeur de
.
Si on appelle X le tableau des donnes (donnes centres), cela
conduit diagonaliser la matrice X'X. Cette matrice est gale la
matrice de corrlations entre les variables dans le cas d'une ACP
norme, et elle est gale la matrice des covariances dans le cas
d'une ACP non norme.
Le vecteur unitaire recherch u est le vecteur propre associ la plus
grande valeur propre obtenue dans la diagonalisation de X'X
.
www.deenov.com
Alain Morineau Page 16 DeeNov
L'opration de diagonalisation consiste chercher les directions de
la dispersion maximale de l'ellipsode dfini par X'X. Le rsultat de
l'opration de diagonalisation est q vecteurs propres ( axes d'inertie
de l'ellipsode) et q valeurs propres (inertie de chaque axe), o q est
le rang de X'X..
De manire analogue, la direction orthogonale u, qui en mme
temps maximise l'inertie projete, correspond au vecteur propre
associ la seconde valeur propre obtenue en diagonalisant la
matrice X'X. Cette inertie projete est gale la seconde valeur
propre, et ainsi de suite.

Diagonalisation de X'X
Valeurs propres Vecteurs propres

1
u
1

2
u
2

. .

p
u
p


Les valeurs propres donnent directement les inerties projetes sur
chacune des directions que nous cherchons.
L'addition de toutes les valeurs propres est la somme de l'inertie sur
les directions orthogonales et, elle est gale l'inertie du nuage de
points.
I
p
var(j)
T 1 2 p
j
p
ee
e
= + + + =
R
S
|
T
|


en ACP norm
en ACP non norm e


Les vecteurs propres donnent les directions d'inertie maximale, que
nous appellons les axes factoriels.
Sur ces directions se projettent les individus, obtenant ce que nous
appelons les composantes principales. Ces composantes principales
s'obtiennent donc comme combinaisons linaires particulires des
variables d'origine. Leur variance est gale leur valeur propre.

+
o
=u
1
x
1
+ +u
p
x
p

var( ) +
o o
=
L'Analyse en Composantes Principales consiste donc passer des p
variables d'origine xj, chacune d'elles avec une importance mesure
par sa variance, p nouvelles variables +
o
combinaisons linaires de
celles d'origine, chacune avec une importance mesure par sa
variance, gale le valeur propre (voir la figure).

www.deenov.com
Alain Morineau Page 17 DeeNov
Variables
Axes factoriels
Var
3
Axe 1
Axe 2
Var
2
Var
1

Changement de base et rduction de la dimentionnalit

Projections des Variables
a
-
Nature de la projection
De mme que nous avons ralis l'ajustement des points-lignes, nous
pouvons procder l'ajustement des points-colonnes (les variables)
dans un espace de dimension rduit qui prserve au mieux les
distances d'origine (les corrlations).
Mathmatiquement, cela conduit diagonaliser la matrice XX.

X=
Matrice
de
Donnes
n
p
X'X
XX'
p
p
n
n
Ajustement des points-lignes
Ajustement des points-colonnes
Diagonaliser

Matrices diagonaliser dans les deux ajustements.

Comme prcdemment, on obtient la dcomposition de l'inertie
selon les directions dfinies par les vecteurs propres de la matrice
XX'. L'inertie projete sur chaque direction est gale la valeur
propre associe.
www.deenov.com
Alain Morineau Page 18 DeeNov

A. Morineau A. Morineau 17 17 DeeNov DeeNov, 2005 , 2005
Nuage des variables Nuage des variables
Nuage des p variables (approximation dans Nuage des p variables (approximation dans R R
n n
) )
Un plan factoriel (v1,v2) coupe la sph Un plan factoriel (v1,v2) coupe la sph re suivant un re suivant un
grand cercle (de rayon 1) grand cercle (de rayon 1)
Les points Les points- -variables tombent variables tombent l l int int rieur rieur
F2
F1
2
1
3
4
F1
F2
4
3
2
1
Espace R
n
Projection
de quatre
variables


Reprsentation de la sphre et du cercle des corrlations

La droite d'inertie maximale se trouve dfinie par le vecteur propre v
(dfinissant la direction F1), associ la plus grande valeur propre.
Le plan d'inertie maximale s'obtient en ajoutant cette droite, la
direction F2 du vecteur propre associ la seconde valeur propre, et
ainsi de suite.
ind
1
ind
2
ind
3
v
1
v
3
v
4
v
2
Axe 1
Axe 2

Nuage des variables et axes factoriels dans lespace des individus.

La reprsentation des variables sur un axe s'obtient par projection
des points variables sur le vecteur unitaire v qui dfinit la direction
de l'axe.
Soit
o j
la coordonne de la variable j sur laxe o. On aura:

o o j
ij
j i
n
i
x x
s
v =

=

1

www.deenov.com
Alain Morineau Page 19 DeeNov

v
1
v
3
v
4
v
2
Axe 1
Axe 2


Axe 1
Axe 2
v
1
v
4
v
3
v
2

Projection des variables sur le premier plan factoriel.

L'inertie des projections de tous les points variables sur un axe
s'obtient par addition des inerties de chaque point. En ACP, il
nexiste pas de pondration des points-variables (les variables jouent
un rle qui est fonction de leurs variances).

o o j
j
p
2
1
=
=


On remarque que l'inertie des points-variables projet sur un axe est
la mme que celle des points-lignes sur laxe de mme rang
(mathmatiquement, on dira que les valeurs propres non nulles de
XX' sont identiques celles de X'X.)
Entre les axes factoriels des deux nuages de points, il existe des
relations qui permettent, connaissant les directions dans un espace,
obtenir les directions dans l'autre espace. On les appelle relations de
transition.
Dans la pratique, il suffit de raliser un seul ajustement; partir de
celui-ci, on obtient lautre.
On ralise en gnral l'ajustement de plus faible cot, celui du nuage
de points-lignes (on diagonalise une matrice plus petite). On obtient
la projection des points-lignes par la formule. La projection des
variables est calcule en fonction des axes factoriels du nuage des
points-ligne :

o o o j j
u =
Cette formule permettra ultrieurement d'interprter la
reprsentation simultane des villes et des variables (lignes et
colonnes du tableau).
Il est clair que le nuage de points-variable n'est pas centr. Il arrive
que tous les points-variables soient situs du mme ct par rapport
lorigine sur le premier axe.
www.deenov.com
Alain Morineau Page 20 DeeNov
On peut voir que, dans le cas dune analyse norme, la coordonne
dune variable sur un axe concide avec la corrlation de cette
variable avec la composante principale (projection des individus sur
laxe factoriel de mme rang):

o o j
= cor( , ) x
j
+
Cette formule joue un rle important pour l'interprtation des
rsultats. Elle met en relation les reprsentations des points-lignes
avec les reprsentations des points-colonnes.
Une corrlation leve indique que la disposition des individus sur
l'axe factoriel est semblable l'ordonnance des individus selon la
variable (la corrlation unit signifierait que la composante
principale est fonction linaire de la variable). Une corrlation
proche de zro indique qu'il n'y a pas d'association linaire entre la
composante principale et la variable.
b
-
Facteur de taille
Dans certains cas, la premire composante principale nait de la forte
corrlation entre les variables actives. La premire composante se
situe alors au milieu du faisceau des variables actives.
Cette situation peut sinterprter de la faon suivante. Dune faon
gnrale, si une valeur est forte pour une variable, les valeurs sont
fortes pour lensemble des variables. Cest la gnralit de cette
observation sur lensemble du tableau qui constitue dans ce cas la
structure la plus forte des donnes et engendre le premier facteur.
C'est la raison pour laquelle nous appelons facteur de taille la
composante principale obtenue.
Ce rsultat est assez frquent en ACP. Dans ce cas, la matrice de
corrlations des variables ordonnes selon leur projection sur ce
facteur, prsente une structure particulire: corrlations leves prs
de la diagonale et dcroissantes quand on sloigne de la diagonale
(on obtient une sriation des corrlations).
c
-
Les matrices implicites des distances
Les matrices des distances existent mais on ne les calcule pas
explicitement.
Les lignes sont situes dans un espace usuel o la distance se mesure
par une formule classique. Dans le cas de l'analyse norme:

d
2
(i, i' ) =
x
ij
x
i' j
s
j
|
\


|
.
|
|
j=1
p

2

www.deenov.com
Alain Morineau Page 21 DeeNov
et pour l'analyse non norme:

d
2
(i, i' ) = (x
ij
x
i ' j
)
2
j=1
p


Dans le nuage des points-variables, la distance est dfinie pour
l'analyse norme par la formule :
)) ' , ( 1 ( 2 ) ' , (
2
j j cor j j d =

et, pour l'analyse non norme, par:

d
2
(j, j' )= var(j)+ var(j') 2cov(j, j' )

Toutes ces distances peuvent tre rassembles dans des matrices
carres: matrice (n,n) des distances entre lignes et matrice (p,p) des
distances entre colonnes. L'analyse factorielle pourrait tre applique
directement ces matrices de distances. Dans ce cas, les
configurations graphiques des nuages de points-lignes et de points-
colonnes sont identiques celles fournies par l'ACP du nuage des
points-lignes et l'ACP du nuage des points-colonnes.


Individus et variables supplmentaires

Dans lexemple de l'analyse des temps d'activits des personnes
actives regroupes en catgories, on dispose de nombreuses autres
informations complmentaires. Par exemple, on veut enrichir cette
analyse par une srie d'indicateurs concernant les habitudes de
frquentation-mdia (constituant des variables continues) et par le
niveau d'ducation, le sexe et l'ge (qui sont des variables
nominales). On dsire galement positionner, dans le nuage analys,
des groupes spcifiques de femmes actives, que l'on va mettre en
lignes supplmentaires.
Le tableau de donnes brutes R peut tre ainsi complt en colonne
par un tableau n lignes et p
s
colonnes R
+
et en ligne par un tableau
R
+
n
s
lignes et p colonnes. Remarque : il n'est pas ncessaire de
connatre le tableau

R
+
+
n
s
lignes et p
s
colonnes croisant individus
et variables supplmentaires.
Les tableaux R
+
et R
+
vont tre respectivement transforms en
tableaux X
+
et X
+
de faon rendre ces nouvelles lignes et colonnes
comparables celles de X.
www.deenov.com
Alain Morineau Page 22 DeeNov
X X
+
X
+
R
+
R
p
n
p
s
R
+ R
+
+
n
s


Lignes et colonnes supplmentaires

Dans l'espace R
n
les p
s
points-variables supplmentaires peuvent
tre continues ou nominales.
a
-
Individus supplmentaires
Pour situer les individus supplmentaires par rapport aux autres
dans l'espace R
p
, il est ncessaire de les positionner par rapport au
centre de gravit du nuage (calcul sur les n individus actifs) et de
diviser les coordonnes par les carts-types des variables (calculs
sur les n individus actifs). D'o la transformation :

x
+ij
=
r
+ij
r
j
s
j

Les coordonnes des nouveaux points-individus sont donc les n
s

lignes du vecteur

X
+
u
o
.
En appelant X
s
le tableau

X
X
+



(

(
on obtient simultanment les n + n
s

coordonnes des individus analyss et supplmentaires en effectuant
le produit matriciel X
s
u
o
.
b
-
Contribution dun individu la fabrication dun axe
Si io
est la coordonne du point-ligne i sur laxe o, nous pouvons
mesurer la part d'inertie d'un point-ligne par le quotient :
CTR i
p
i i
( , ) o

o
o
=
2
100
Il s'agit de la contribution du point
i
la fabrication de l'axe
o
.
Les contributions des points-lignes servent dtecter les lments
qui contribuent le plus la formation des axes factoriels.
www.deenov.com
Alain Morineau Page 23 DeeNov
Si tous les lments avaient la mme contribution, celle-ci devrait
osciller autour dune valeur moyenne (100% divis par le nombre
dlments).
Quand la valeur d'une contribution est-elle "leve"?
La rponse n'est pas simple. Une contribution sera juge leve
quand, en la comparant au reste des contributions, elle aura une
valeur "anormalement" grande.

A. Morineau A. Morineau 1 1 DeeNov DeeNov, 2005 , 2005
Dans quelle proportion chaque point contribue Dans quelle proportion chaque point contribue- -t t- -il il l l inertie inertie
o o
du du
nuage projet nuage projet sur l sur l axe axe u u
o o
? ?
Pour donner une signification Pour donner une signification un axe, s un axe, s int int resser surtout aux resser surtout aux
points ayant une forte contribution. (Ils fixent la position de points ayant une forte contribution. (Ils fixent la position de l l axe axe
dans dans R R
p p
) )
( )
( )
2
.
u = direction de plus Axe factoriel u
max. grande inertie du

u
nuage autour de G.
i i
i
f

( (
( (


( (
+ =
`
( (
)

Influence des individus : les Influence des individus : les


contributions contributions
i' G i' G
i' G
( ) ( ) ' ca i ca i
o o
> ( ) ( ) ' ca i ca i
o o
>
( ) ( ) ' ca i ca i
o o
=
Utilit
i
i
i G G
G


c
-
Qualit du positionnement dun point
Les cosinus carrs sont utilisables pour apprcier la qualit du
positionnement des points en reprsentation factorielle compar
leur configuration relle.
En effet, les images obtenues sont des approximations de la
configuration relle. Il y aura des distances entre couples de points
bien reprsentes, tandis que d'autres ne reflteront pas fidlement
la distance relle entre les points.
Si deux points sont proches du plan factoriel, alors la distance
reprsente sera une bonne approximation la distance relle. Mais
si au moins un point est loign du plan de projection, alors la
distance relle peut tre diffrente de celle reprsente sur le plan.
www.deenov.com
Alain Morineau Page 24 DeeNov
Cette proximit du plan factoriel de projection est mesure par les
cosinus carrs de chaque point avec les axes factoriels. La figure
illustre la dfinition :
G
i
d(i,G)
e
Axeo

io

.
Le cosinus carr comme mesure de proximit

COS i
d i G
i 2
2
2
( , )
( , )
o

o
=
Un cosinus carr gal 1 indique que llment se trouve situ sur
l'axe (l'angle est nul). Un cosinus carr gal 0 indique que llment
est dans une direction orthogonale l'axe.
En additionnant les cosinus carrs par rapport aux p axes factoriels,
nous obtiendrons l'unit, car il faut utiliser tous les axes factoriels
pour positioner exactement le point dans l'espace complet.
COS i
p
2
1
1 ( , ) o
o
=
=



A. Morineau A. Morineau 22 22 DeeNov DeeNov, 2005 , 2005
Qualit Qualit de repr de repr sentation des individus : sentation des individus :
les cosinus carr les cosinus carr s s
Le point (i) dans Le point (i) dans R R
p p
est plus ou moins est plus ou moins proche proche de chaque axe ( de chaque axe (o o) )
de projection. de projection.
En projection, la proximit En projection, la proximit entre points est d entre points est d autant plus autant plus
v v ridique ridique que les points sont proches de l que les points sont proches de l axe de projection. axe de projection.
Pour analyser les proximit Pour analyser les proximit s entre points, s s entre points, s int int resser surtout aux resser surtout aux
points ayant un fort cosinus carr points ayant un fort cosinus carr . (Proximit . (Proximit s peu modifi s peu modifi es en es en
projection.) projection.)
u
o
G
(i)
u
o
G
(i)
Utilit
( )
( )
cos 0
est mal
reprsent
sur u
i
i
o
o
~ (

( )
( )
cos 1
est bien
reprsent
sur u
i
i
o
o
~ (


www.deenov.com
Alain Morineau Page 25 DeeNov
L'addition des cosinus carrs d'un point sur diffrents axes, donne,
en pourcentage, la "qualit" de la reprsentation du point sur le sous-
espace dfini par ces axes.
A partir de quelle valeur des cosinus carrs dira-t-on qu'un point est "bien
reprsent" sur le plan factoriel ?
Comme pour les contributions, la rponse n'est pas simple. On
apprciera une valeur par rapport l'ensemble des autres valeurs.
Nous devrons comparer les cosinus carrs (ou leur somme sur les
deux premiers axes si nous travaillons sur le premier plan factoriel)
pour pouvoir rpondre cette question.
d
-
Notion de reprsentation simultane en ACP

Le nuage des individus et celui des variables ne sont pas
superposables, nayant aucun point commun. On peut cependant
reprsenter, au sein du nuage des individus, les directions des
anciens axes porteurs des variables : ce sont des individus fictifs
supplmentaires. Dans la reprsentation simultane, ces axes
indiquent dans quelle direction la variable correspondante est
croissante.

A. Morineau A. Morineau 19 19 DeeNov DeeNov, 2005 , 2005
X
(j)
Individu (i)
0 0 0 1 0 0 0 0
1 0 0 0 0 0 0 0
Variable (j)
Variable
(1)
Variables en repr Variables en repr sentation simultan sentation simultan e e
Les variables sont Les variables sont
des individus des individus
particuliers qui en particuliers qui en
caract caract risent les risent les
directions directions
Ces individus valent Ces individus valent
1 dans la direction 1 dans la direction
de la variable de la variable
et 0 dans les autres et 0 dans les autres
directions directions


e
-
Dtails sur la reprsentation simultane
Dans l'Analyse en Composantes Principales les deux nuages sont
dfinis dans des espaces diffrents, avec des origines diffrentes et
des bases distinctes. Pour le nuage des points-lignes, l'origine est le
centre de gravit des individus. Le nuage est dans un espace de
dimension p et nous dsignons par u
o
la base des axes factoriels.
Pour le nuage des points-colonnes, l'origine des coordonnes est le
point zro, il est par construction dans un espace de dimension n
www.deenov.com
Alain Morineau Page 26 DeeNov
(mais les variables actives dfinissent un sous-espace de dimension
p) et nous dsignons les axes factoriels par v
o
.
Les points-lignes et les points-colonnes tant donc dans des espaces
diffrents, il est a priori impossible de les visualiser ensemble dans
un espace qui respecterait les proximits internes des 2 nuages.
Cependant, nous pouvons reprsenter les directions dfinies par
chaque variable d'origine sur la base des axes factoriels u
o
.

F
1
F
2
u
2
u
1
Ancienne base
des variables
dorigine
e
Nouvelle base orthogonale
des axes factoriels R
p
x
1
x
3
x
2
e
3
e
2
e
1

Ancienne base de R
p
et la nouvelle base constitue par les axes factoriels.

Les vecteurs qui dfinissent les directions des variables d'origine
sont les vecteurs (1,0,0,0,...), (0,1,0,0,...), (0,0,1,0,...), etc.
Soit e
j
le j-me vecteur de cette base. Sa projection sur la base dfinie
par les u
o
est dfinie par le produit scalaire des deux vecteurs
e u
j
'
o o
= u
j
(2.21)
C'est la j-me composante du vecteur u
o
.
Ainsi la projection des anciens axes porteurs des variables dorigine
sur la nouvelle base est donne par les composantes des vecteurs
propres u
o
de l'analyse des points-lignes.
Un ancien axe j, porteur de la j-me variable dorigine, peut tre
considr comme un individu artificiel dans lespace des
individus: il a la coordonne 1 sur le j-me axe et des coordonnes
nulles ailleurs. A ce titre le point-variable j peut apparatre au sein
des individus dans toute reprsentation factorielle. Linterprtation
sen dduit. Ce point j est lextrmit du vecteur unitaire qui dfinit,
au sein du nuage des individus, la direction de croissance de la
variable j.
Notons quil ny a pas dunit commune entre la longueur 1 du
vecteur unitaire qui porte la variable j et les valeurs des coordonnes
des individus sur un axe. Puisque seule la direction compte, on aura
www.deenov.com
Alain Morineau Page 27 DeeNov
tout loisir de dilater ces vecteurs unitaires pour que les directions
soient clairement lisibles dans le nuage des individus.
Ainsi il apparait que les p variables sont des points aux extrmits
de p vecteurs-unitaires situs au sein du nuage des individus, et
reprsentent en fait la translation du repre dorigine au point-
moyen du nuage des individus. Ces p points sont sur une
hypersphre de rayon unit.
Sur le premier plan factoriel du nuage des individus, ces p vecteurs
unitaires vont apparatre lintrieur dun cercle de rayon unit
comme crasement du repre orthonorm des variables dorigine.
x
3
x
1
x
2
O
e
1
e
2
e
3
F
1
F
2
.


Projection sur le plan factoriel
des axes de la base d'origine avec le nuage de points-lignes

Il est clair que ce nouveau nuage de points-variable diffre du nuage
des points-variable tudi plus haut, dans lequel langle entre j et j
tait une mesure de la corrlation entre les deux variables (ici tous
les angles sont droits, et on observe en fait la projection de ces angles
droits sur le plan factoriel).
Si lextrmit dun point-variable est assez proche du cercle de rayon
unit, la direction de croissance de cette variable est bien dfinie
dans le plan factoriel que lon tudie: les individus proches du centre
prennent des valeurs proches de la moyenne de cette variable; les
individus loigns dans la direction indique ont des valeurs trs
fortes; ceux loppos auront des valeurs trs faibles.
Cest aussi quest dfinie et interprte la reprsentation simultane
des individus et des variables en ACP.
Noter que si tous les vecteurs-unitaires, dans cette reprsentation
simultane, forment un fasceau assez troit autour du premier axe
factoriel, on identifiera un facteur taille: dans la direction du premier
axe, toutes les variables croissent simultanment et dcroissent
simultanment.
www.deenov.com
Alain Morineau Page 28 DeeNov
Remarque sur les deux reprsentations des points-variables.
Considrons le nuage des points-variable dune ACP norme. La
coordonne de la variable j sur laxe o est :

o o
u
j

Considrons la coordonne sur laxe o du point reprsentant la
direction de croissance de la variable j dans le graphique dune
reprsentation simultane :
u
jo

Le rapprochement de ces deux formules nous assure que les deux
reprsentations des variables vont en ralit tre graphiquement
assez semblables ( une dilatation prs le long de chaque axe).
Cette similitude graphique conduit parfois des abus
dinterprtation sur les graphiques de la reprsentation simultane
(o lon mlange analyse des angles et analyse des directions de
croissance).
Dans ce cadre, on notera quil est interdit de faire apparatre une
variable illustrative dans une reprsentation simultane des
variables et des individus en ACP. Les variables illustratives ne
participent pas au repre dorigine du nuage des individus et ne
peuvent donc pas tre reprsentes par une direction de croissance
au sein du nuage des individus.
Pour toute ACP, on retiendra quil y a:
- la reprsentation du nuage des points-variables: ce sont des
directions (vecteurs unitaires si lACP est norme) et on
tudie les angles entre ces directions.
- la reprsentation simultane des individus et des variables
actives: les points-variables sont les extrmits de vecteurs
unitaires orthogonaux indiquant les directions dans lesquelles
les variables correspondantes prennent des valeurs
croissantes dans le nuage des individus.
f
-
Variables continues supplmentaires
Dans R
n
, pour que les distances entre variables s'interprtent encore
en termes de corrlations, ces variables doivent tre valeurs
numriques continues et il est indispensable d'effectuer la
transformation de centrage et rduction des donnes brutes :

x
ij
+
=
r
ij
+
r
j
+
s
j
+

www.deenov.com
Alain Morineau Page 29 DeeNov
On calcule donc les nouvelles moyennes et les nouveaux carts-types
correspondant aux variables supplmentaires, pour positionner
celles-ci sur la sphre de rayon unit.
Les coordonnes des p
s
variables supplmentaires sur cet axe sont
donc les p
s
lignes du vecteur X
+
'v
o
et correspondent chacune au
coefficient de corrlation entre la variable et laxe (appel le facteur,
colonne n coordonnes).
Les variables continues illustratives sont positionnes en utilisant les
mmes formules que pour les variables actives. Dans le cas de l'ACP
norme, on utilise la corrlation avec les composantes principales.

o o j
+ +
= cor en ACP normee ( , ) x
j
+
(lexposant + indique qu'il s'agit de variables illustratives).
La position des variables par rapport aux axes factoriels s'interprte
comme pour les variables actives. La position d'une variable
illustrative dans le plan factoriel permet de visualiser la relation de la
variable avec l'ensemble des variables actives par l'intermdiaire des
axes factoriels.
On notera cependant qu'aucune distance n'a t dfinie entre deux
variables illustratives. Leurs positions relatives ne prsupposent
aucune corrlation entre ces variables. Cependant, dans la mesure o
les variables illustratives sont bien reprsentes sur le premier plan
factoriel et proches l'une de l'autre, on peut sattendre ce que la
similitude de leurs corrlations avec les axes (similitude de leurs
coordonnes) soit la consquence d'une forte corrlation entre elles.
Rgression visualise.
Le positionnement d'une variable continue en lment
supplmentaire est assimilable une "rgression visuelle": la
variable illustrative joue le rle de variable de rponse (ou endogne)
et le sous-espace de projection (constitu par les premiers axes
factoriels), joue le rle des variables explicatives (ou exognes).
L'analogie est illustre par la figure.
Dans une rgression, on s'intresse essentiellement la valeur des
coefficients des variables (coordones sur les variables d'origine): il
s'agit de savoir si les variables d'origine permettent de bien "prvoir"
la variable y.

www.deenov.com
Alain Morineau Page 30 DeeNov
y
variable continue
illustrative
Rgression
x
1
x
2

Axe 1
Axe 2
Projection en supplmentaire
^
y
b
1
b
2

quivalence entre la rgression et la projection en supplmentaire

Dans une ACP, les variables de type "y" sont souvent nombreuses.
Leurs projections sur le premier plan factoriel indiquent rapidement
celles qui sont globalement bien ou mal lies l'ensemble des
variables actives. Leurs positions relatives aux axes fournit par
ailleurs des lments d'interprtation des axes (car la coordonne est
gale la corrlation).
Qualit de la reprsentation des variables illustratives.
Nous pouvons calculer la qualit de la reprsentation pour les
variables illustratives grce aux cosinus carrs avec les diffrents
axes. Nous devons nanmoins prendre en compte que maintenant, la
somme complte des cosinus carrs sur les p axes sera en gnrale
infrieure l'unit.
2 2
cos ( , ) { (variable,facteur)} j cor o
+
=
Pour positionner une variable illustrative dans l'espace d'origine, on
a besoin de ses n composantes (ses valeurs pour les n individus). Il
en est de mme pour une variable active, mais l'ensemble des
variables actives se trouve dans un sous-espace de dimension p (le
rang de X, ou encore de X'X). Donc en ralit les coordonnes sur les
p axes factoriels permettent de situer exactement toute variable
active. Cette propiet n'est pas vraie pour les variables illustratives.
Il n'y a pas lieu de calculer les contributions des variables
illustratives l'inertie des axes, car ces variables ne sont pas
intervenues dans la formation des axes.
g
-
Variables nominales supplmentaires
Si la variable mettre en supplmentaire est nominale, on ne peut
plus effectuer la mme transformation.
www.deenov.com
Alain Morineau Page 31 DeeNov
Dans ce cas, on ramne la variable nominale ayant m modalits, m
groupes d'individus dfinis par les modalits de la variable. On traite
ensuite ces m groupes d'individus comme des individus
supplmentaires. Ce sont les centres de gravit de ces groupes
d'individus qui vont tre positionns dans l'espace R
p
.
Toute variable nominale dfinit une partition des individus en
autant de groupes que la variable possde de modalits.
On peut reprsenter avec des symboles diffrents ces groupes
d'individus dfinis par chaque modalit. Pour chaque groupe de
points, nous pouvons calculer son point moyen ou centre de gravit
(voir la figure).

Donnes
actives
Variable nominale
supplmentaire
2 modalits

Partition du nuage
des points-ligne en deux
groupes (=1, =2)
G
2
1
1
2
1
2
2
1
G
1

Partition dfinie par une variable nominale.

La figure fournit donc une simplification du nuage des points-
individus vu du point-de-vue de la variable nominale choisie. La
configuration des points-modalits permet en gnral de qualifier
certaines zones du graphique. Elle peut suggrer des lments
dinterprtation des directions factorielles.
Supposons, par exemple, que l'on mesure la taille et le poids de 10
individus et que l'on dsire mettre en supplmentaire la variable
sexe. Nous disposons des mesures reprsentes dans le tableau plus
bas.
On calcule alors la taille et le poids moyens des hommes (177; 75) et
celui des femmes (167; 59). Ce sont ces points moyens qui vont tre
positionns parmi les points-individus.

www.deenov.com
Alain Morineau Page 32 DeeNov
177 75
167 59
150 45 2
168 68 1
175 72 1
178 70 2
185 70 1
160 53 2
165 49 2
180 90 1
175 65 2
174 72 2
variable nominale
supplmentaire
2 modalits
variables
continues
actives
taille p o id s sex e
1



i




10
lignes
supplm.
:


168 68
175 72

185 70


180 90



177 75
150 45


178 70

160 53
165 49

175 65
174 72

167 59
modalit 1
( h o mme)
modalit 2
( f emme)
taille p o id s
taille p o id s

Les modalits de la variable nominale supplmentaire
sont des individus supplmentaires

La reprsentation par deux points G
1
et G
2
d'une variable nominale
deux modalits est esquisse sur la figure ci-dessus.

F
1
F
2
G
*

*
*

*
*

*
*

*
*
*
*
*
*
*
*
*
*
*
*

*
F
1
F
2
G
G
2
G
1

*
: hom
: fem

Reprsentation d'une variable nominale supplmentaire
L'analyse d'une variable nominale supplmentaire ne se fait donc
pas dans R
n
mais dans R
p
. La figure schmatise le positionnement
des modalits supplmentaires comme points moyens des individus
qui les composent.
www.deenov.com
Alain Morineau Page 33 DeeNov
La caractrisation statistique par les valeurs-test
a
-
Principe
La position d'une modalit est calcule comme position de l'individu
moyen de ce groupe. Cette position peut tre plus ou moins proche
du centre de gravit de tous les individus (origine des coordonnes
factorielles).
Une bonne proximit avec le centre de gravit global suggre que le
groupe dindividus correspondant est tir au hasard parmi tous les
individus. Au contraire, lloignement entre une modalit et le point
moyen global suggre une relation forte entre certaines variables
actives et la modalit (Noter quune modalit sera d'autant plus
proche du centre de gravit global, qu'un nombre important
d'individus l'auront choisie. Si tous les individus l'avaient choisie,
elle conciderait avec le centre de gravit global).
On veut valuer dans quelle mesure une modalit (un groupe
dindividus) signale, par sa position, une zne intressante dans le
plan factoriel.
Le centre de gravit gnral tant le lieu dattraction des points
moyens de tout groupe dindividus tirs au hasard, on va provilgier
les points moyens qui diffrent significativement du centre de
gravit global: les individus qui forment un tel groupe seront assez
typs et assez semblables entre eux pour scarter suffisamment du
centre de gravit.
Supposons que nous slectionnions au hasard un groupe de nj
individus parmi les n individus disponibles. L'image graphique de
ces individus sur le premier plan factoriel sera celle dune rpartition
alatoire sur le plan.
Le point moyen de ces nj individus ne va diffrer de la moyenne
globale, reprsente par l'origine des coordonnes, que par des
fluctuations alatoires (voir la figure).

Axe 1
Axe 2

Tirage au hasard d'un groupe d'individus.
www.deenov.com
Alain Morineau Page 34 DeeNov
Supposons que nous rptions plusieurs fois le tirage alatoire de nj
individus et le calcul du point moyen des individus slectionns. Le
centre de ces individus concidera, aux fluctuations prs, avec le
centre de gravit global.
Supposons maintenant que les nk individus ne sont pas slectionns
au hasard. Ils sont situs dans une certaine zne du plan factoriel
(voir la figure).

G
mod

Axe 1
Axe 2

Groupe d'individus dfinis par une modalit

Calculons le point moyen de ces individus et sa distance au centre de
gravit global. La position de ce point-moyen est-elle compatible
avec lhypothse que les individus sont tirs au hasard? Plus le non
sera catgorique (en terme statistique), plus on trouvera intressante
la modalit pour caractriser la zne du plan factoriel o elle se
trouve.
b
-
La valeur-test pour la caractrisation des modalits
On procde comme pour un test statistique classique. L'hypothse
"nulle", note H0, est l'hypothse d'un tirage au hasard des nk valeurs
parmi les n observations. Le tirage est suppos sans remise car
chacune des nk valeurs est une et une seule des observations. Avec
cette hypothse de travail, on calcule la probabilit d'observer une
configuration de valeurs au moins aussi extrme que celle de
l'chantillon. C'est la probabilit critique associe au test de
l'hypothse nulle H0 (on dit aussi p-value). Plus cette probabilit est
faible, plus on est amen mettre en cause l'hypothse du tirage au
hasard. En effet c'est cette hypothse utilise dans le calcul qui donne
l'vnement ralis une probabilit aussi faible de ralisation.
Pour classer les variables par ordre d'importance, on les range en
fonction des probabilits critiques. La variable la plus typique du
groupe est celle qui correspond la plus petite probabilit.
www.deenov.com
Alain Morineau Page 35 DeeNov
La "valeur-test" est un outil qui participe l'approche exploratoire et
descriptive des grands tableaux numriques (A. Morineau, "Note sur
la Caractrisation Statistique d'une Classe et les Valeurs-tests",
Bulletin Technique Centre Statistique Informatique Appliques., Vol
2, n 1-2, p 20-27, 1984). Le logiciel SPAD ddi au traitement
statistique des grands tableaux en fait un usage intensif.
On considre l'cart entre la moyenne des coordonnes dans le
groupe k et la moyenne gnrale. Plus cet cart est "significatif",
mieux la variable caractrise le groupe k. Soit m la moyenne des
coordonnes (nulle ici) et s
2
la variance empirique calcules sur les n
observations. Elle est gale la valeur-propre de laxe
correspondant. Soit mk la moyenne des nk observations du groupe.
Appelons Mk la variable alatoire "moyenne des nk tirages". Sous
l'hypothse H0 d'un tirage uniforme et sans remise, on a:
E
Var
H k
H k
k
k
k
M
M
n n
n n
s
0
0
0
1
2
=
=


Si n et nk ne sont pas trs petits, le thorme de la limite centrale
s'applique (bien que les tirages ne soient pas indpendants) et dans
ce cas la variable:
U
M m
s
k
k
=


suit approximativement une loi normale centre rduite.
La probabilit critique associe cette variable est donc la probabilit
pour une loi normale de dpasser la valeur numrique u calcule
dans l'chantillon pour la variable U ci-dessus.
On obtient les modalits les plus typiques pour un axe en
slectionnant les plus petites probabilits critiques. Il est quivalent
de slectionner les modalits correspondant aux plus grandes
valeurs prises par la variable normale:
u
m m
s
k
k
=

(2.18)
Cette quantit est appele valeur-test. Elle est exprime en nombre
d'carts types d'une loi normale.
Elle s'interprte de la faon suivante: la probabilit d'un cart aussi
grand entre les deux moyennes est gale aux chances d'atteindre ce
nombre d'carts types pour une loi normale. On value en quelque
sorte la distance entre la moyenne gnrale et la moyenne dans le
groupe, en nombre d'carts types d'une loi normale. C'est cette unit
www.deenov.com
Alain Morineau Page 36 DeeNov
commune qui permet les comparaisons entre les modalits et
conduit aux tris par ordre d'importance.
La position du point moyen du groupe d'individus permet donc
dvaluer la vraisemblance de l'hypothse de tirage au hasard de ces
individus (figure).
G G
mod
Probabilit critique
Axe 1
valeur-test

V-test associe une probabilit critique.
Plus la valeur-test est grande (en valeur absolue), plus il est clair que
le groupe d'individus occupe une position significative et caractrise
la zne du graphique o il se trouve.
Pour les tableaux de taille raisonnable , nous utilisons souvent le
seuil de 2 carts-types pour juger si la position d'une modalit est
significative. Les valeurs suprieures 2 indiquent des valeurs peu
probables sous l'hypothse d'extraction au hasard. Nous pouvons
donc penser que ces individus gardent une certaine relation avec
l'ensemble des variables actives qui les font apparatre en positions
excentriques du nuage.
Cependant, il faut tenir compte du nombre total d'individus. Ce
nombre peut tre trs grand (problmes de data mining). Noter quil
suffit de doubler indfiniment le tableau des donnes pour rendre
les valeurs-test aussi grandes que lon veut.
La valeur-test est en ralit utilise comme simple critre pour
ordonner les modalits selon leur association avec les axes factoriels
(et non formellement pour rejeter ou non une hypothse nulle).
c
-
La valeur-test pour la caractrisation des axes
On a vu comment la v-test est un critre permettant de ranger par
ordre d'importance les variables continues caractristiques d'un
groupe d'individus (c'est--dire caractristiques d'une certaine
modalit). Si maintenant on fixe la variable continue, le mme critre
permet de ranger l'ensemble des modalits susceptibles de
caractriser cette variable.
www.deenov.com
Alain Morineau Page 37 DeeNov
En analyse de donnes, la "variable" dont les valeurs sont les
abscisses des individus sur un axe factoriel peut tre assimile une
variable continue. A ce titre, on peut chercher quels sont les groupes
d'individus (les modalits "j") qui caractrisent au mieux un facteur
(o un plan factoriel, par lintermedire de la caractrisation de ses
deux axes).
Appelons
io
la coordonne de l'individu i sur l'axe numro o, et
jo
la
coordonne de la modalit j sur ce mme axe. Une modalit est le
point moyen des individus qui la composent:

o
o
o
j
k
i
i
n
=

1

Sous l'hypothse nulle d'un tirage au hasard, l'esprance de
io
est
nulle et sa variance est gale
o
. Pour un tirage sans remise de n
j

valeurs, la variance d'une moyenne doit tre corrige par
( ) ( ) n n n
j
1 . On a donc:
E
Var
H j
H j
j
j
n n
n n
0
0
0
1
1

o
o
=
=


La v-test associe la modalit j sur l'axe o sera donc:
u
n n
n n
j j
j
j
o o
=

( ) 1

Elle value, en nombre d'carts types d'une loi normale, la distance
sur l'axe o de la modalit j au centre du graphique. On caractrise
donc l'axe o en rangeant les modalits "j" dans l'ordre dcroissant des
v-test.
d
-
Les valeurs-tests et le Data mining.
Les v-tests constituent un outil rapide pour le Data mining
(dbroussaillage) aussi bien des donnes brutes que des rsultats
des analyses factorielles ou des classifications. Dans les grands
tableaux de donnes et pour la lecture des analyses
multidimensionnelles complexes, le rangement des lments par
valeurs-tests dcroissantes fait apparatre les traits saillants au
premier coup d'il, montre rapidement o sont les cohrences et
permet l'accumulation progressive des connaissances.
Toute information disponible dans le tableau des donnes peut tre
range par sa v-test sur un plan factoriel. Ainsi dans une enqute
par exemple, parmi les attributs utilisables on peut introduire
www.deenov.com
Alain Morineau Page 38 DeeNov
l'ensemble des paramtres techniques ou instrumentaux de
l'enqute: l'heure de l'entrevue ou le croisement sexe-ge du couple
enquteur-enqut. Ces attributs, positionns sur les plans factoriels
et accompagns des v-tests les plus significatives, constituent
souvent un moyen de validation des rsultats de l'enqute. La figure
montre le positionnement de l'heure d'entrevue et de l'ge de
l'enquteur. Dans une enqute dopinion par exemple, le point
"interview du soir" par exemple est le centre de gravit des
personnes ayant t enqutes le soir.


Positionnement de paramtres techniques

Les v-tests permettent dtecter toutes les liaisons significatives mais
ne tiennent pas compte des dpendances entre les lments. Ce trait
est d'ailleurs l'origine des redondances multiples et donc des effets
accumulateurs de connaissance. On voit ici la complmentarit avec
les analyses exploratoires multidimensionnelles dont le principal
objectif est de tirer le meilleur parti du tissu des dpendances.
Considrons titre d'exemple la trajectoire dans un plan factoriel
des catgories d'ge de personnes enqutes et supposons que celle-
ci s'allonge rgulirement le long du premier axe. La Figure
schmatise cette situation avec les groupes 1 4. La forme de cette
trajectoire rsulte de l'ensemble des liaisons existant entre les
lments actifs dans l'analyse.
Il est probable que les v-tests associes la position des catgories
extrmes 1 et 4 seront leves. Cependant les catgories plus
centrales 2 et 3 n'apparatront pas distinctes de l'origine au vu de
* *
* *
*
*
*
*
*
*
*
*
*
*
Interview du soir
Interview de jour
Enquteur < 40 ans
Enquteur > 40 ans
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
www.deenov.com
Alain Morineau Page 39 DeeNov
valeurs-tests trop faibles. Doit-on cependant ignorer ces catgories
"non-significatives", alors que leur alignement dans la trajectoire
montre la cohrence de leur position?

Groupe 2

*
*
*
*

Groupe 1
Groupe 4
Groupe 3


Cohrence sur une trajectoire

On voit qu'une notion de cohrence est contenue dans le tissu
proprement dit des liaisons entre les donnes, alors que les lments
pris isolment peuvent avoir des v-tests faibles et donc ne pas se
rvler directement significatifs.
Remarque
La proximit entre les modalits A et B de deux variables peut tre
le rsultat de deux effets distincts. Soit les deux modalits ont une
majorit dindividus en commun, ce qui assure la proximit des
points-moyens; soit les individus sont diffrents mais ils sont dans
la mme zne du graphique. Dans tous les cas on interprte la
proximit en terme de similitude des individus constituant les
groupes.

Les mmes individus


partagent les deux modalits
Les individus sont semblables mais distincts
B A B

Proximit de 2 modalits.
www.deenov.com
Alain Morineau Page 40 DeeNov
Cest ainsi que 2 catgories dge peuvent tre proches, bien quelles
concernent des individus distincts. Dun autre cot, les personnes
qui votent de telle faon seront dans la mme zne graphique que
les personnes qui consomment tel produit, parce quils ont
globalement le mme profil socio-culturel, sans tre exactement les
mmes individus.

ACP non norme
Dans une ACP, l'inertie du nuage d'origine est dcompose dans
des directions orthogonales successives prenant en compte chaque
fois une part dinertie maximale.
Quelle est la contribution de chaque variable linertie totale du
nuage? La formule de distance entre points-variables fait que la
contribution de chaque variable l'inertie totale est la mme et gale
1/p.
En effet, on va voir que l'inertie du nuage de points-variables par
rapport l'origine est gale au nombre de variables actives.

2
1
( , 0)
p
T
j
I d j p
=
= =


Il suffit de travailler avec les donnes centres et rduites dfinies
par:

z
ij
=
x
ij
x
j
s
j

o

x
j
est la moyenne de la variable

j et

s
j
est son cart type. Nous
parlons alors d'analyse en composantes principales norme. Dans ce
cas, la distance de chaque variable l'origine est gale l'unit:

d
2
( j, 0) =
1
n
x
ij
x
j
s
j
|
\


|
.
|
|
i=1
n

2
=
1
n
(x
ij
x
j
)
2
i

s
j
2
=1
Tous les points-variables sont situs une mme distance de
l'origine (sur une hyper-sphre de rayon unit) et participent de
faon gale l'inertie totale.
Cette situation nest pas toujours justifie. Par exemple, dans une
analyse ralise pour le compte d'une entit banquaire, il sera
intressant de donner plus de poids aux produits qui contribuent le
plus au volume de ses dpts. Autrement dit, l'importance accorde
aux diffrentes variables doit tre conforme aux objectifs de
lanalyse.
www.deenov.com
Alain Morineau Page 41 DeeNov
Si lon travaille avec des donnes brutes (simplement centres, sans
avoir ralis la rduction par lcart-type), nous pouvons voir quelle
serait la contribution l'inertie totale de chaque variable. La
distance (au carr) de la variable l'origine est:

d
2
( j, 0) =
1
n
(x
ij
x
j
)
2
i=1
n

=var( j)
Dans ce cas les variables ne sont pas sur la sphre de rayon unit,
mais la longueur du segment de chaque variable est dfinie par son
cart-type. Nous devons donc imaginer le nuage des points-
variables comme un ensemble de vecteurs, chacun de longueur
gale lcart type de la variable et formant des angles dfinis par le
coefficient de corrlation entre les variables.
Il sagit alors d'analyse en composantes principales non norme.
Remarquons que les distances entre deux points variables
dpendent dans ce cas, de la corrlation (cest--dire de l'angle
qu'elles forment), mais aussi des variances des variables:
ind
3
var
j
s
j
Nuage de variables
R
n
ind
2
ind
1

Nuage de points variables dans une Analyse en Composantes Principales non norme

Linertie globale du nuage des points-variables est alors gale la
somme des variances de chaque variable.

I
T
= d
2
( j, 0) = var( j)
j=1
p

j=1
p


La contribution de chaque variable l'inertie globale est donc:

var(j )
var( j)
j


La variance est, comme on le sait, fonction de l'unit de mesure de la
variable. Cela fournit donc un moyen de moduler l'importance de
chaque variable dans une analyse (Ces modifications auront
galement des rpercusions sur les distances entre individus).
www.deenov.com
Alain Morineau Page 42 DeeNov
La variable plus grande variance sera celle qui contribuera le plus
linertie du nuage, donc au calcul des directions principales
dinertie. Nous verrons que la premire composante principale tend
se rapprocher des variables ayant de grandes variances.
Dans la pratique, il est souvent justifi de donner aux variables une
importance gale en utilisant lACP norme. Cest en particulier
indispensable quand les variables actives sont mesures avec des
units diffrentes (des euros, des grammes, etc.).
Dans lACP non norme comme dans lACP norme, les deux
nuages de points, individus et variables, ont la mme inertie. En
effet, l'inertie du nuage des points-individus est la somme des
distances au carr de chaque point au centre de gravit, pondre
par le poids de chaque point. Nous pouvons l'exprimer par rapport
chaque axe de l'espace des points-lignes, o chaque axe reprsente
une variable.

I
T
=
1
n
( x
ij
x
j
)
2
j=1
p

i=1
n

=
1
n
i=1
n

j=1
p

(x
ij
x
j
)
2
= var( j)
j=1
p


Par consquent, la variance le long de chaque axe est la dispersion
du nuage projet sur cet axe. Il est facile de voir que, les axes tant
orthogonaux, l'inertie globale est la somme des inerties sur chacun
des axes et que l'inertie des points-individus est gale l'inertie des
points-variables.
Retenir lessentiel
Lorsque les variables actives ne sont pas toutes exprimes dans la
mme unit de mesure, lopration de rduction par lcart-type
permet de rendre comparables les variables puisque toute valeur
dune variable devient un cart sa moyenne exprim en nombre
dcarts-types de la variable. Toutes les observations ainsi recodes
deviennent des valeurs comparables, de moyenne nulle et dcart-
type unit (ce sont des mesures sans unit).
Cette transformation nest donc plus indispensable lorsque toutes les
variables actives dorigine sont exprimes dans la mme unit (des
cm, ou des kg, ou des euros, etc.).
Dans ce cas, on notera :
- La distance dune variable lorigine est gale la variance de
la variable : Les points variables ne sont plus sur une hyper-
sphre de rayon 1. les variables les plus disperses sont les
plus excentres et donc auront une propension jouer un rle
plus important dans le calcul des axes de plus grande
dispersion.
www.deenov.com
Alain Morineau Page 43 DeeNov
- La distance entre les variables j et j est la quantit :
var(j) + var(j) 2 cov(j,j)
Elle augmente donc avec les dispersions mais diminue quand
leur dpendance linaire augmente.
On considre le triangle (O,j,j) dont lcart-type de j est la
longueur de Oj ; lcart-type de j la longueur de Oj ; dont
langle est aigu si la covariance est positive, et obtus sinon.
- La matrice analyse pour calculer les directions de plus grand
allongement nest plus la matrice des corrlations mais la
matrice des covariances.

A. Morineau A. Morineau 14 14 DeeNov DeeNov, 2005 , 2005
ACP norm ACP norm e et non norm e et non norm e e
Distance entre individus Distance entre individus
Distance entre variables Distance entre variables
covariances covariances corr corr lations lations
Matrice diagonalis Matrice diagonalis e e X'X X'X
Non norm Non norm e e Norm Norm e e
( ) ( )
2
2
'
, '
ij i j
j
d i i x x =

ij ij j
x z z =
( ) ( ) ( )
2
, ' 2 1 , ' d j j cor j j =
( ) ( ) ( )
( )
2
, ' var var '
2cov , '
d j j j j
j j
= +

ij j
ij
j
z z
x
s

=


On notera que lanalyse non norme peut tre justifie mme dans le
cas o toutes les variables actives sont lorigine exprimes dans la
mme unit. Une telle analyse correspond alors au souci de faire
jouer aux variables un rle proportionnel leur dispersion (alors que
lanalyse norme fait jouer toutes les variables le mme rle dans le
calcul des distances).

Relations entre les ajustements des 2 nuages
Considrons le tableau X ayant n lignes et p colonnes, donnant
naissance un nuage de n points lignes et un autre nuage de p points
colonnes. La technique danalyse factorielle de ce tableau conduit
des rductions de volume de donnes, des reconstitutions
approches et des reprsentations graphiques. Elle consiste pour
www.deenov.com
Alain Morineau Page 44 DeeNov
lessentiel trouver les sous espaces qui sapprochent au plus prs
de ces nuages. Ces sous espaces sont dfinis par des vecteurs
unitaires orthogonaux successifs, porteurs des directions successives
de plus grand allongement des nuages :
- u1, u2,, up pour le nuage des n points-lignes
- v1, v2,, vp pour le nuage des p points-colonnes
Noter que ces deux espaces, sans avoir de points communs, ont en
fait la mme dimension p (le rang de la matrice X : la plus petite des
valeurs n et p, cest--dire p en gnral).
Les n points-lignes projets sur le plan (u1,u2) fournissent la
meilleure reprsentation approche (au sens des moindres carrs) de
la configuration du nuage de ces points. De la mme faon, la
projection des p points-colonnes sur le plan (v1,v2) fournit la meilleure
visualisation dans un plan du nuage des points-variables. Dans
chaque cas, le critre des moindres carrs invoqu est le suivant : la
somme des carrs des distances entre tous les couples de points sur
le plan est la plus proche possible de la somme relle des carrs des
distances dans lespace complet.

A. Morineau A. Morineau 8 8 DeeNov DeeNov, 2005 , 2005
Relations de transition
Le tableau X et son transpos X sont
les matrices de passage entre les axes
des deux espaces
1
1
u X v
v X u
o o
o
o o
o

' =

Les coordonnes
des projections
sur les axes
dans R
p
et R
n
sont les lignes
de Xu
o
et de Xv
o


www.deenov.com
Alain Morineau Page 45 DeeNov
Reconstitution approche. Combien daxes retenir ?
Avec les premires composantes principales, nous recomposons la
majeure partie de la dispersion entre les points. Mais combien d'axes
faut-il retenir?
A. Morineau A. Morineau 9 9 DeeNov DeeNov, 2005 , 2005
si les p q plus petites valeurs propres
sont juges ngligeables
1 1
p q
X v u v u
o o o o o o
o= o=
' ' = ~


(Compression des donnes )
Reconstitution approche

La question est difficile et n'admet certainement pas de rponse
dfinitive. Il faut d'abord savoir quoi lon destine les axes que l'on
veut retenir. Prenons quelques exemples:
- On peut vouloir retenir les axes pour faire des reprsentations
graphiques qu'il faudra examiner visuellement. Dans ce cas le
nombre d'axes le plus confortable est 2, car on regardera les
nuages sur une feuille de papier: ce sont les axes F1 et F2. On
peut essayer de reprsenter le "volume" dans l'espace (F1, F2
et F3), mais les ralisations graphiques sont souvent difficiles
lire. On ne peut rien voir au del de trois dimensions. On
peut imaginer regarder des projections telles que (F2, F3) ou
(F1, F4) mais l encore, l'effort "intellectuel" est norme pour
visualiser les configurations de points o les distances lues
sont le rsultats de compressions dans des directions qui ont
disparu. S'il s'agit de visualisation plane donc, on se
contentera le plus souvent du premier plan factoriel. Poir
"voir" au del de ce plan, on aura recours en gnral la
complmentarit apporte par les mthodes de classification.
- Si on retient des axes factoriels comme support pour raliser
une classification, le problme est diffrent. On cherche
retenir beaucoup d'axes (pour rester aussi proche que possible
des donnes observes), mais on supprimera les directions
www.deenov.com
Alain Morineau Page 46 DeeNov
correspondant aux plus petites valeurs propres (fluctuations
alatoires des donnes, ne correspondant aucune liaison
relle entre les variables) pour assainir l'information utilise
pour comparer les individus.
- Si on veut utiliser les axes factoriels pour une analyse
discriminante ou une rgression multiple, on cherchera
retenir un petit nombre d'axes, mais pas ncessairement les
premiers. On trouvera ventuellement des directions
discriminantes dans des axes de rangs assez levs.
Quel que soit le cas, la rponse n'est pas immdiate, elle est lie la
stabilit des rsultats obtenus. Nous devons nous mfier des rgles
automatiques, et la pratique dmontre qu'il est possible de trouver
des axes factoriels stables mme s'ils correspondent des valeurs
propres faibles.
Remarque. Pour diminuer la part dinertie de chaque axe, il suffit
dajouter au tableau de donnes des nouvelles variables alatoires
non corrles (bruit blanc). Le paradoxe est que (sil sagissait
dinformation) "linformation" apporte par les premiers axes reste
inchange.

www.deenov.com
Alain Morineau Page 47 DeeNov
Glossaire succinct
On rassemble ici quelques mots du vocabulaire utilis de faon courante dans le
texte. Il y a une large part darbitraire dans le choix de tel mot plutt que tel autre
mais limportant est de lever dventuelles ambiguts.

A. Morineau A. Morineau 10 10 DeeNov DeeNov, 2005 , 2005
Composantes
principales
continues
actives
F2
F1
F2
F1
F2
F1
F2
F1
X1
X2
X4
X3
cont.
act.
ind.
Act.
F
H
ge
Elments
actifs
Elments
illustratifs
nomi. ill. cont. ill.

Tableau de synthse de lACP
Tableau de donnes: Cest un tableau rectangulaire compos de lignes et de
colonnes. Dans chaque case, intersection dune ligne avec une colonne, se
trouve une donne, code numriquement pour une variable continue, et
numriquement ou alphabtiquement pour une nominale. On dit aussi matrice
des donnes. On parle galement du tableau individus x variables. Le
tableau est souvent not X; il aura n lignes et p colonnes.
Individu (individu statistique): Pour nous, ce sera ici une ligne du tableau de
donnes. Cest la dimension rptitive du tableau de donnes: on a des
relevs statistiques, des mesures, des rponses pour un individu (premire
ligne du tableau), puis pour un autre (deuxime ligne), etc.
Variable: Toute colonne du tableau de donnes sera appele une variable. Pour
chaque individu, on fait les mmes mesures, les mmes relevs, on pose les
mmes questions. Au lieu de variable, on peut dire mesure, ou paramtre, ou
question, etc.
Variable continue: On parle de variable continue quand la mesure faite sur
lindividu est de type quantitatif. Pour fixer les ides, une variable est continue
quand la notion de moyenne a un sens.
Variable nominale: La variable est nominale quand les valeurs quelle prend sont
des noms de catgories. Cest le cas du statut matrimonial, de lge sil est
dcoup en classes, des rgions gographiques. On dit parfois variable
qualitative, variable catgorielle, etc.
www.deenov.com
Alain Morineau Page 48 DeeNov
Modalit: Les modalits sont les valeurs que prend une variable nominale. La
variable Sexe a deux modalits. On peut dire aussi: groupe, catgorie,
classe, etc.
Nuage de points: Dans le plan ou dans lespace trois dimensions, la notion
usuelle de nuage de points est claire: les points sont positionns en fonctions
de leurs coordonnes sur un repre daxes orthogonaux et on sait calculer la
distance (usuelle) entre deux points. Avec plus de trois axes de coordonnes,
le nuage de points continue exister, mais naturellement on ne peut plus le
visualiser.
Distance: La distance entre deux points au sein dun nuage de points est la notion
usuelle de distance (calculable en fonction des coordonnes des points par le
clbre thorme de Pythagore).
Inertie: Cest une notion mcanique mais en tout point quivalente ici la notion
statistique de variance. Elle est lie la notion de dispersion dans lespace
dun nuage de points pesants. Ainsi, si les individus ont des poids gaux, la
direction de plus grande inertie dun nuage de points est sa direction de plus
grand allongement.
Centre de gravit: Le centre de gravit est le point moyen dun nuage de points
pesants. Il y a quivalence ici entre la notion mcanique de centre de gravit
et la notion statistique de point moyen.
Analyse factorielle: Visualisation optimale d'un espace multidimensionel sur un
ou plusieurs plans factoriels.
ACP: Acronyme pour Analyse en Composantes Principales.
Variables actives: Variables qui participent la construction des axes, du nuage
de points projets.
Variables illustratives: Variables qui n'ont pas particip la construction des
axes, mais permettent d'illustrer les diffrents plans factoriels.
Contribution: Mesure la participation d'un lment (modalit, variable, frquence
ou individu) la construction de l'axe.
Cosinus: Mesure la qualit de la projection d'un lment lment (modalit,
variable, frquence ou individu) sur l'axe.
Valeur-test: (ou v-test) Mesure, en nombre d'carts-types d'une loi normale, la
distance entre une valeur statistique observe et sa valeur sous l'hypothse
nulle (=tirage au hasard). Sert caracteriser les axes, les modalits, les
classes, etc.

www.deenov.com
Alain Morineau Page 49 DeeNov
Quelques rfrences
La littrature sur le sujet est de plus en plus abondante danne en anne.
Pour une bibliographie plus dtaille dans lesprit de ce contenu,
consulter par exemple nos publications :
Lebart L., Morineau A., Tabard N. Techniques de la Description Statistique.
Dunod, Paris, 1977.
Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle.
Dunod, Paris, 1995 (1
re
dition) , 2006 (4
me
dition).
Lebart L., Morineau A., Warwick K. Multivariate Descriptive Statistical Analysis.
J. Wiley, New York, 1984.
Morineau A., Aluja-Banet T. LAnalyse en Composantes Principales. CISIA,
Paris, 1998.
Rfrences historiques incontournables :
Eckart C., Young G. (1936) The approximation of one matrix by another of
lower rank. Psychometrika, 1, p 211-218.
Rao C. R. (1964) The use and interpretation of principal component analysis in
applied research. Sankhia serie A, 26, p 329-357.
Benzcri J-P. (1973) Lanalyse des donnes (2 tomes). Dunod, Paris.

You might also like