Professional Documents
Culture Documents
Prsentation
Ce cours ne ncessite que quelques connaissances mathmatiques relatives la
manipulation des matrices et ce essentiellement pour comprendre la thorie de
lanalyse en composantes principales.
Il peut tre facilement abord par les tudiants de gestion (marketing, conomie,
commerce ...), de psychologie, de mdecine et les lves ingnieurs
(informatique, acoustique...).
Ce cours de statistique lmentaire et d'analyse de donnes comprend cinq
chapitres qui peuvent tre consults de faon indpendante.
Il est conseill de commencer par le chapitre description de tableau . Il
prsente des concepts lmentaires de statistique descriptive utiliss dans le
reste des chapitres.
Le chapitre que nous conseillons d'aborder en second lieu est Classification
Automatique .
En effet pour bien assimiler les notions lmentaires de classification nous avons
besoin des lments descriptifs prsents au premier chapitre.
Les trois autres chapitres peuvent ensuite tre librement abords car ils sont
indpendants.
DESCRIPTION DE TABLEAU
L'analyse de donnes est un ensemble plus ou moins dfini de mthodes
statistiques.
La premire tape dans une analyse de donnes est essentiellement la dfinition
de la population ou des individus1 tudier. Ces individus sont dcrits par des
caractres ou variables2. Ces individus et variables sont souvent sous forme de
tableau ou matrice.
Pour un problme donn l'utilisateur doit dterminer les individus, les variables,
les types associs chaque variable, leur codage, .
-
donnes
utilisation de mthodes danalyse de donnes
rsultats
I Individus et variables
1.1 Choix des individus
Les donnes d'un problme peuvent correspondre une population assez vaste et l'analyse de donnes
intervient gnralement aprs le recueil de ces donnes. Elle utilise des mthodes de description
souvent indpendantes de la faon dont ces donnes ont t obtenues. Ces donnes sont reprsentes
sous forme de tableau:
variables
qualitatives
revenu, poids,
frquence, contingence,
quantitatif binaire
succs-chec, prsenceabsence,
Exemple
qualitatif
nominal
qualitatif
ordinal
qualitatif
textuel
vp
w1
.
xij
wi
wn
2.2 Exemples de tableaux de donnes
2.2.1 Tableau individus*variables
0.1
0.2
sondage2
0.3
0.3
sondage3
0.4
0.2
W2
W3
1 2 1 2
L'individu rpond 1, 2 ou 3 suivant sa frquence de lecture d'un journal.
1pas du tout ;
2 quelques fois ;
3 souvent.
3) Tableau binaire : on rencontre souvent des variables qui ne prennent que deux
valeurs codes gnralement 0 et 1. Elles conduisent des tableaux binaires.
Indiv/Jour V1 V2 V3 V4
W1
W2
W3
1 0 0 1
Chaque individu rpond par oui ou par non la question "avez-vous achet ce
journal ?"
4) Tableau de prfrence : on peut par exemple disposer des prfrences des
personnes interroges sur des marques de parfum
Pers/Marque M1 M2 M3 M4 M5
W1
W2
W3
W4
7.6 avion
W2
10.
bateau
9
W3
3.5 train
48
55
31
14
10
Les vecteurs (f1., fi.,.. fn.) et (f.1, f.j, .. f.p) sont nots fI et fJ . Ce sont les lois
marginales dfinies sur I et J.
On dfinit les frquences conditionnelles
.
Les vecteurs
sont nots
.
Ce sont les lois conditionnelles. Elles sont aussi appeles profils.
Toutes les quantits
a:
J1 ..Jl.. Jt
I1
Ik
Tkl
Ir
Les deux familles ne sont pas ncessairement disjointes.
Si les deux familles de variables sont identiques le tableau obtenu est appel tableau de Burt.
Lorsqu'une des familles est rduite une seule variable, la tableau obtenu est appel tableau de
contingence juxtapos.
2.2.4 Tableau de similarit
Ces tableaux recensent des similarits entre des variables. On considre souvent les tableaux de
corrlation et de covariance3 dfinis par les corrlations ou les covariances de tous les couples de
variables quantitatives comme tableaux de similarit.
2.2.5 Tableaux individus*individus
Lorsqu'on value la similarit ou la dissimilarit entre chaque couple d'individus, on construit un
tableau de proximit. Par exemple si l'on considre des machines laver que l'on veut comparer les
unes aux autres, la case (i,j) contient une note de 1 10 mesurant la ressemblance des machines j et k.
M1 M2 M3 M4
M1 10 3.7 6.2 1.5
M2 3.7 10 8.7 5.3
M3 6.2 8.7 10 9.4
M4 1.5 5.3 9.4 10
Exercice
Soit le tableau de donnes suivant :
num
poid g taill tat
la covariance :
sex pays
la corrlation :
.
Le coefficient de corrlation est trs souvent not: r.
Cette corrlation sinterprte comme le cosinus de langle des deux vecteurs x j,xj' dans lespace
des variables. Au tableau X initial, on associe aussi la matrice V de variance-covariance :
V ={cov(xj, xj) ; j=1..p ; j= 1..p}
et R la matrice de corrlation
Deux variables sont fortement corrles linairement positivement (~1) si quand l'une
augmente, la deuxime augmente proportionnellement.
Deux variables sont fortement corrles linairement ngativement (~-1) si quand l'une
augmente, la deuxime diminue proportionnellement.
Lorsque r est proche de 0 on dit qu'il y a absence de corrlation linaire entre les deux variables.
tudiant
50
19
1.5
c
6
TUN
55.5 21
1.6
m
0
FR
66
1.6
c
5
GB
22
matrimonial e
4
79 .. ..
..
..
Quel est le type de ce tableau ?
tableau de contingence
tableau indiv*variab qualitatives
tableau indiv*variab quantitatives
tableau indiv*variab htrognes (Bonne rponse)
...
10
la moyenne4
La mdiane mej: la valeur de la variable telle que l'on ait autant de valeurs gauche de mej qu' droite.
Histogramme: soit I = [m, M], un intervalle de R qui contient l'ensemble des valeurs prises par la
variable v. On dcoupe I en intervalles Ii disjoints de longueur gales: I = I1 Ik
avec I1 = [m, y1[; Il= [ yl, yl+1[; Ik= [yk,M].
Soit ni le nombre d'individus ayant pris une valeur contenue dans l'intervalle Ii. On peut alors visualiser
l'chantillon l'aide d'un histogramme o chaque intervalle est reprsent par son effectif:
Exercice
Prenons l'exemple de la variable suivante:
4
Moyenne
La variance
var (xj) =
C'est la moyenne du carr de la distance entre les valeurs et leur moyenne. C'est aussi, un
facteur prs, le carr de la distance entre une variable et sa moyenne. C'est un indicateur de la
dispersion des valeurs autour de leur centre qui est la moyenne.
La racine carre de la variance de la variable constitue l'cart type.
11
Observation Variable
1
12
15
17
23
100
la corrlation7
.
Remarquons que le coefficient de corrlation est trs souvent not: .
Ce coefficient permet gnralement de dterminer la prsence d'une corrlation linaire positive (
entre 0.5 et 1) ou ngative ( entre -0.5 et -1) entre deux variables ou encore l'absence de corrlation
linaire ( entre -0.5 et 0.5).
Tous ces lments de statistiques descriptives ont une interprtation gomtrique dans lespace des
variables Rn muni du produit scalaire Dp : xj,xj Dp = txj Dp xj =in pi xij xij o Dp est la matrice
diagonale:
p1
0
.
0
6
pn
la covariance :
la corrlation :
.
Le coefficient de corrlation est trs souvent not: .
Cette corrlation sinterprte comme le cosinus de langle des deux vecteurs x j,xj' dans lespace des
variables. Au tableau X initial, on associe aussi la matrice V de variance-covariance :
V ={cov(xj, xj) ; j=1..p ; j= 1..p}
et R la matrice de corrlation
Deux variables sont fortement corrles linairement positivement (~1) si quand l'une
augmente, la deuxime augmente proportionnellement.
Deux variables sont fortement corrles linairement ngativement (~-1) si quand l'une
augmente, la deuxime diminue proportionnellement.
Lorsque est proche de 0 on dit qu'il y a absence de corrlation linaire entre les deux variables.
12
Soit
et la matrice de corrlation
13
Liens entre variables qualitatives : A partir de deux variables qualitatives v1 et v2 on a dfini le tableau
de contingence croisant ces deux variables. A partir dun tel tableau, de nombreuses mesures de
ressemblance peuvent tre calcules, la plus classique est le de contingence qui permet de mesurer
lcart lindpendance des deux variables. Plus le est grand, plus les variables sont lies .
Exercice
Soit une partie d'une matrice de corrlation entre variables:
Correlation Matrix
cer
lem
leg
fru
via
poi
lai
VALIDER
var 1 :
var 2 :
7.6 Avion
W2
10.9 Bateau
W3
3.5 Train
En dfinissant trois tranches de prix : ]0,5] ; ]5,10] ; [10,20] respectivement code 1,2,3 ; on peut alors
dfinir la variable v'1 : {1, 2, 3}sans structure, qui associe chaque individus le code
correspondant sa tranche de prix.
14
B 4
C 6
D 10 4
E 8
F 0 3 6
On attribue un poids gal pi= 1/6 chaque individu. La moyenne de chaque variable, selon l'ordre
est:6;4,5.
Comment devient ce tableau une fois ses variables centres?
V1 V2 V3
V1 V2 V3
A 4/3 1/6 0
A 2
A 4
1/2 0
B 2/3 1
B -2 2
B 2
5/2
4/3 7/6
C 0
C 3
7/2
D 4
D 5
7/2
E 2
-2 0
E 4
5/2
F 0
F -6 -1 1
F 0
3/2 3
C 1
5/6
1/2 1
-3 -5
V1 V2 V3
tableau1
tableau2
tableau3
- Combinaison de variables :
On peut crer une nouvelle variable quantitative en appliquant des fonctions numriques (combinaison
linaire, polynomiale, etc.). On peut aussi utiliser des fonctions utilisant des expressions logiques de
variables quantitatives ou qualitatives.
Exemple : v = (v1>v6)* (2v1 + v3 )6.
* Transformation quantitatif-qualitatif
16
1
17
codage final :
moins de 20 ans et plus de 60 ans code 1 ;
entre 20 et 60 ans code 2.
Par combinaison de variable :
cette transformation est analogue la combinaison de variables quantitatives.
Exemple : soit deux variables qualitatives v1 et v2 trois modalits codes 1,2,3. On cre une nouvelle
variable qualitative v3 deux modalits codes 1 et 2 : v3 = 1 si v1=1 et si v2 =1 ou 3 ; v3=2 sinon.
* Transformation qualitatif-quantitatif
codage disjonctif complet
Ce codage consiste transformer une variable qualitative r modalits en r variables binaires
indicatrices de chaque modalit.
Exemple : soit trois individus a, b, c rpondant aux questions suivantes :
couleur des yeux (Y), ge (A), sexe(S), leurs rponses tant codes de la manire suivante :
Yeux : vert 1 ; bleu 2 ; marron 3.
Age : 0 20 ans 1 ; 20 50 ans 2 ; plus de 50 ans 3.
Sexe : fminin 1 ; masculin 2 ;
YAS
A 1 2 2
B 2 1 1
C 3 3 2
Le codage disjonctif complet de ce tableau est:
Vert Bleu Marron 0-20 20-50 +50 F M
A1
0
0
0
1
0 01
B0
1
0
1
0
0 10
C0
0
1
0
0
1 01
V Similarit
5.1 Quelques dfinitions
- Une similarit ou dissimilarit est toute application valeurs numriques qui permet de mesurer le
lien entre les individus dun mme ensemble ou entre les variables. Pour une similarit le lien est
dautant plus fort que sa valeur est grande.
- Un indice de similarit (ou plus simplement une similarit) sur un ensemble est une application s de
dans R+ qui vrifie les deux conditions suivantes :
c1) s symtrique : (w,w) ; s(w,w) = s(w,w)
c2) (w,w) avec ww ; s(w,w) = s(w,w) s(w,w).
18
- Un indice de dissimilarit (ou plus simplement une dissimilarit) est une application d qui satisfait
la condition c1 et c2 qui suit :
c2) w d(w,w)=0;
Distance et Ultramtrique : une distance est un indice de dissimilarit qui vrifie en plus les deux
proprits suivantes :
- d1) d(w,w) =0 w=w
- d2) d(w,w) d(w,w) + d(w,w) (lingalit triangulaire) pour tout w,w,w .
- Un indice de dissimilarit, qui vrifie seulement la proprit (d1) est appel indice de
distance .
Sil vrifie seulement la proprit (d2) on dit que cest un cart .
Si au lieu de vrifier (d2), lindice de dissimilarit vrifie lingalit suivante :
d3) d(w,w) Max( d(w,w), d(w,w) ) w, w, w''.
On dit que cest un cart ultramtrique (ou une dissimilarit ultramtrique ). On voit facilement
que la condition (d3) entrane (d2). Un indice de dissimilarit, satisfait (d1) et (d3) est appel distance
ultramtrique .
5.2 Tableaux de variables quantitatives
* Distances entre individus
Distances euclidiennes gnrales : ce sont les distances les plus classiques, elles vrifient :
o M est une matrice symtrique dfinie positive. On les nomme galement distances quadratiques ou
mtriques dont voici quelques cas particuliers :
distance euclidienne simple : cest le cas o M=1 :
Tableau de contingence
A partir de deux variables qualitatives on dfinit le tableau de contingence croisant les modalits
de deux variables. La case l'intersection de la ligne i et de la colonne j contient le nombre
d'individus ayant choisi la modalit i de la premire variable et la modalit j de la seconde
variable. Si l'on divise chaque valeur de ce tableau par le cardinal de la population, on obtient le
tableau de frquences relatives que l'on appellera plus simplement tableau de frquence.
Consommation/sexeGaronFilleNulle4855<1 fois par semaine>24311 fois par semaine1410>1
fois par semaine53Ce tableau de contingence permet d'tudier la frquence de consommation
dalcool selon le sexe dune population de lycens franais. On notera I et J deux variables
qualitatives ayant respectivement n et p modalits I= {1,..,n} et J = {1,..,p}. nij reprsente le
nombre dindividus possdant la fois la modalit i et la modalit j. Le tableau de contingence
est l'ensemble {nij, i I, j J} .
19
o
* Distances entre variables
Les similarits les plus classiques sont la covariance ou corrlation entre variables. La valeur absolue
de la corrlation est un indice de similarit.
Lensemble de ces distances peuvent aussi tre utilis sur des tableaux de
variables binaires. Dautres distances peuvent aussi tre dfinies.
5.4 Tableaux de variables qualitatives
Similarits entre individus
Le codage disjonctif complet permet de se ramener un tableau de variables
binaires. On peut utiliser les similarits et dissimilarits indiques
prcdemment et en particulier la distance du .
Similarits entre variables
A partir de deux variables qualitatives v1 et v2 , on peut considrer le tableau de
contingence associ. Ce tableau permet de dfinir une similarit entre les deux
variables. Par exemple, la valeur du
de contingence peut tre utilise comme
similarit entre les deux variables
:
o q est le nombre de modalits de la premire variable et r le nombre de modalits de la deuxime
variable.
5.5 Dissimilarits entre groupes dindividus
Etant donn deux groupes dindividus A1 et A2 de et une dissimilarit d : R+, on peut
imaginer de nombreuses dissimilarits entre groupes :
* Distance du lien minimum :
* Distance du lien maximum :
* Distance des centres de gravit : dans le cas o lespace darrive des p variables O=O 1* Op est
un espace vectoriel muni dune distance quadratique, on peut prendre comme distance entre deux
groupes, la distance de leur centre de gravit. Dans le cas de deux groupes A 1 et A2 disjoints, une
distance drive de la distance des centres de gravit et plus souvent utilise est :
20
o (A1) est le poids du groupe A1 et o g1 est le centre de gravit de A1. Cette distance reprsente la
perte dinertie9 rsultant de lagrgation de A1 et A2.
21
CLASSIFICATION AUTOMATIQUE
Introduction
La nature offre un grand nombre de populations qu'il est souhaitable de rpartir en catgories. Plusieurs
disciplines demandent des classifications, comme par exemple en mdecine o on peut avoir besoin de
dcouvrir les principaux regroupements de malades ayant le mme comportement vis vis de certaines
maladies. On peut aussi vouloir rpartir une population de personnes suivant des critres tel que sexe,
activit, tat matrimonial .... La mme population peut aussi tre soumise, suivant le besoin, une autre
classification comme par exemple le sexe, la nature du travail... .
22
Avec les sept points prcdents, on peut aussi construire un recouvrement trois classes P=(P1, P2,P3):
P1 ={ w7 , w5,w4}; P2 ={ w5 , w4,w6}; et P3 ={ w1 , w2,w3} reprsent par:
23
Nous utilisons encore l'ensemble form des sept points prcdents; une hirarchie associe H
associe peut tre:
On a bien H=
avec hi={wi} pour i=1,7 ,...h11 = {w7} h10 et h12= h11h9.
On vrifie facilement que H satisfait bien aux trois axiomes de la dfinition d'une hirarchie.
Exercice
Que reprsente ce groupement de points :
24
Partition
Recouvrement
Hirarchie
II Notion d'inertie
En prsentant la construction d'un tableau10 nous avons dfini l'ensemble des
individus contenant n points de Rp par : ={ x1, xn} avec xi :
xi1
xi2
.
.
xip
Chaque point xi est muni de poids pi strictement positifs et dont le total est gal
1. On dispose d'un nuage N() de n points pondrs dans Rp; N() = {(xi,pi) ;
i=1,n}.
2.1 Inertie du nuage par rapport un point
10
Un tableau de donnes est un tableau rectangulaire qui se dduit de la dfinition de l'ensemble des
individus et des variables. Soit n le nombre d'individus et p le nombre de variables, notons { w 1, , wn}
l'ensemble des individus et { v1, ,vp} l'ensemble des variables. Le tableau de donnes associ est X= (x ij;
i=1..n; j=1..p) ou xij = vj(wi)
v1.vjvpw1.wixijwn
25
L'espace Rp tant muni d'une mtrique euclidienne11 dM, on appelle inertie de N() par rapport un
point a de Rp la quantit
Remarque: le centre de gravit est le point par rapport auquel l'inertie du nuage est au minimum. On
peut aussi dire que le centre de gravit est le meilleur reprsentant du nuage puisque Ia Ig.
2.2.1 Inertie par rapport un axe passant par l'origine
Quand il s'agit de reprsentation vectorielle, on considre trs souvent comme confondus l'origine O de
l'espace et le centre de gravit g.
Soit donc un axe passant par O. On appelle inertie par rapport la quantit:
D'aprs le thorme de Pythagore on peut dire que: I(o) = I() + IE(). L'inertie du nuage est la somme
de l'inertie par rapport et de l'inertie explique par .
2.2.2 Inertie par rapport un sous-espace
L'inertie par rapport un sous-espace P de dimension k peut aussi s'crire sous la forme:
11
26
- l'inertie interclasse B,
Ces trois inerties sont relies par la relation fondamentale : T=B+W; qui peut se dduire du thorme
de Huygens. En effet, considrons l'ensemble des points d'une des classes Pl . D'aprs le thorme de
Huygens, on a :
27
En sommant cette galit pour l variant de 1 k, on retrouve T= W+B. Il rsulte de cette formule que
plus l'inertie intraclasse est faible plus l'inertie interclasse est grande.
29
CLASSIFICATION HIERARCHIQUE
Introduction
Certain groupements d'objets correspondent naturellement une hirarchie.
C'est un ensemble de parties hirarchiquement emboites comme par exemple
l'ensemble des points suivants qui peut tre reprsent par une telle hirarchie:
Dans cette hirarchie chaque palier sous-tend un groupe de points. La hauteur du palier est une mesure
du degr d'agrgation du groupe.
Ainsi le groupe ou la classe {w4, w5} est plus agrg que le groupe {w1, w2, w3}.
La commodit des hirarchie est leur interprtation visuelle et l'utilisateur est surtout intress par la
dtection de classes " bien significatives ", issues de la hirarchie. Ces classes forment alors une
partition obtenue par dcoupage de la hirarchie selon une ligne horizontale dpendant du problme
Chaque palier (non rduit un singleton) est la runion d'autres paliers. Par la suite nous utiliserons
souvent la notion de hirarchie binaire, on appelle ainsi une hirarchie dont chaque palier est la runion
de 2 paliers.
Afin de pouvoir visualiser une hirarchie par un graphique il faut " valuer " les paliers de la hirarchie,
c'est dire leur associer une hauteur, d'o la notion de hirarchie indice.
30
12
- Une similarit ou dissimilarit est toute application valeurs numriques qui permet de mesurer le lien entre
les individus dun mme ensemble ou entre les variables. Pour une similarit le lien est dautant plus fort que sa
valeur est grande.
Un indice de similarit (ou plus simplement une similarit) sur un ensemble est une application s de dans
R+ qui vrifie les deux conditions suivantes :
c1) s symtrique : (w,w) ; s(w,w) = s(w,w)
c2) (w,w) avec ww ; s(w,w) = s(w,w) s(w,w).
- Un indice de dissimilarit (ou plus simplement une dissimilarit) est une application d qui satisfait la condition
c1 et c2 qui suit :
c2) w d(w,w)=0;
Distance et Ultramtrique : une distance est un indice de dissimilarit qui vrifie en plus les deux proprits
suivantes :
d1) d(w,w) =0 w=w
d2) d(w,w) d(w,w) + d(w,w) (lingalit triangulaire) pour tout w,w,w .
31
ab 0
c 3 0
c 3 0
d 6 3 0
de 7 4 0
e 7 4 1 0
g 16 13 10 5 0
11 8 5 4 0
11 8 5 0
g 16 13 10 9 5 0
32
abc de f g
abc 0
de 7
abc de fg
abc 0
11 5 0
16 10 5 0
de 7
fg
abcde de
abcde 0
fg
16
10
16 10 5
En donnant chaque nud la distance entre les deux lments qu'il runit l'arbre se prsente comme
celui de gauche:
* On cherche les deux lments les plus proches, que l'on agrge en un nouvel lment
* On calcule les distances entre le nouvel lment et les lments restants. On se trouve dans les mmes
conditions qu' l'tape 0, mais avec seulement (n-1) lments classer.
* On cherche de nouveau les deux lments les plus proches, que l'on agrge. On calcule les nouvelles
distances, et l'on ritre le processus jusqu' ce qu'il n'y ait plus qu'un seul lment.
Exemple: soient cinq points du plan classer, en prenant comme distance entre ces objets le carr de
leur distance. La matrice des distances entre ces diffrents points est:
(1) (2) (3) (4) (5)
(1) 0
16 1
(2) 16 0
10
17 25 2
(3) 1
17 0
(4) 9
25 4
13
(5) 10 2
13 0
Etape 1: les objets grouper sont 1 et 3. On va appeler 6 le nouvel lment obtenu et la nouvelle
matrice des distances sera:
(6) (2) (5) (4)
(6) 0
16 9
(2) 16 0
25
(5) 9
13
(4) 4
25 13 0
(7) 9
13
(4) 4
13 0
Etape 3: les objets grouper sont 6 et 4. On va appeler 8 le nouvel lment et la nouvelle matrice des
distances sera:
(8) (7)
(8) 0
(7) 9
Etape 2: les objets grouper sont 8 et 7. On va appeler 9 le nouvel lment et l'ensemble de ces
regroupements sont reprsents dans cette hirarchie (ou arbre):
34
Exemple: Soit un programme13 du logiciel SAS. Le code invoque une procdure de classification
hirarchique CLUSTER sur 29 observations. La premire partie des rsultats14 contient des valeurs
13
data un;
input v1-v3;
cards;
1
36.510 15.480
2
35.340 15.960
3
33.700 21.510
4
33.150 23.220
5
32.600 24.660
6
32.050 26.710
7
30.960 28.360
8
30.140 29.380
9
29.110 30.680
10
28.010 32.190
11
26.440 31.990
12
25.000 31.370
13
23.770 30.410
14
23.010 28.630
15
21.920 27.600
16
21.160 26.160
17
19.660 23.560
18
19.180 22.050
19
20.550 21.030
20
22.260 20.070
21
21.780 18.770
22
21.100 19.380
23
21.920 17.190
24
20.680 16.160
25
19.660 14.930
26
18.490 14.040
27
17.190 12.810
28
16.030 11.580
29
14.930 10.550
;
PROC CLUSTER METHOD=ave ;
var v2-v3;
id v1;
proc tree ;
id v1;
RUN
14
35
numriques. Nous pouvons y distinguer le fait que les niveaux sont ordonnes:de la plus petite distance
(RMs distance) de 0.071 entre les observations 21 et 22 qui forment le noeud 28 la plus grande
distance entre noeud soit 1.2727. Ce noeud regroupe 29 observations et qui rassemble les noeuds cl27
et cl2. La seconde partie reprsente un arbre vertical.
1
2
Eigenvalue
Difference
Proportion
Cumulative
57.9571461
24.7181320
33.2390140
0.7010
0.2990
0.7010
1.0000
------Clusters Joined------21
1
7
20
25
14
28
4
12
10
17
23
19
22
2
8
CL28
26
15
29
5
13
11
18
24
CL25
CL26
CL23
9
16
27
3
CL19
CL17
6
CL18
CL8
CL11
CL12
CL7
CL5
CL3
CL27
CL22
CL21
CL20
CL24
CL15
CL16
CL10
CL14
CL9
CL13
CL6
CL4
CL2
FREQ
Norm
RMS
Dist
2
2
2
3
2
2
2
2
2
2
2
2
4
3
3
3
3
4
4
4
6
10
7
7
13
14
27
29
0.071
0.0983
0.1018
0.1064
0.1143
0.1166
0.1172
0.1199
0.1213
0.1231
0.1232
0.1254
0.1649
0.1869
0.1919
0.1988
0.2084
0.2549
0.2572
0.2807
0.2984
0.4571
0.4605
0.5145
0.7039
0.7362
1.2052
1.2727
T
i
e
36
37
Les poids sont introduits pour attacher plus d'importance la restauration de la distance entre deux
points que ceux-ci sont plus pesants.
Pour gnraliser ce critre sur tout le nuage on crit:
15
Si nous appelons Proj(Xi) la projection orthogonale de Xi sur l'axe , l'inertie pourra s'crire:
D'aprs le thorme de Pythagore on peut dire que: I(o) = I() + IE(). L'inertie du nuage est la somme de
l'inertie par rapport et de l'inertie explique par .
38
. On a
16
Centrage rduction :
Quand les variables sont mesures avec des chelles diffrentes ou ont des dispersions htrognes, il peut savrer utile de
centrer et rduire ces variables.
- Centrer une variable v consiste en soustraire sa moyenne
- Rduire une variable v consiste la diviser par son cart-type.
Une variable centre-rduite satisfait aux deux proprits suivantes :
sa moyenne est nulle
son cart type est gal un
Cela permet dobtenir :
a) des donnes indpendantes de lchelle choisie
b) des variables ayant mme moyenne et mme dispersion.
39
D'autre part le produit scalaire entre deux vecteur A et B est par dfinition gal A'B (le vecteur
transpos de A produit avec B aussi not tAB) aussi gal B'A (aussi not tBA) . D'aprs ces deux
galits on peut crire que:
L'inertie explique peut donc s'crire sous la forme:
Posons la matrice
o X est la matrice n lignes et p colonnes. Les lignes
de X sont les vecteurs Xi, M est la matrice carre diagonale d'ordre n des poids pi (gnralement pi =
1/n).
V peut aussi s'crire V=ZZ' avec Z= X'M1/2. V s'appelle matrice des moments centrs d'ordre 2 ou
matrice d'inertie. V a les proprits suivantes:
* V est symtrique et a le rang de X.
* V est diagonalisable et ses valeurs et vecteurs propres sont rels.
* Les vecteurs propres associs des valeurs propres diffrentes sont orthogonaux.
* V est semi dfinie positive et donc pour tout vecteur U de Rn on a U'VU positif, toute valeur propre
de V est donc suprieur ou gale zro.
* La trace de V,qui est la somme de toutes les valeurs propres, est gale
Dfinitions:
1) Les axes engendrs par les vecteurs u1, ..uk sont appels axes principaux d'inertie.
2 On appelle k ime composante principale, ou k ime facteur, le vecteur yk, dont les composantes sont les
coordonnes des points du nuage sur le k ime axe principal d'inertie uk.
Comme on a n individus, le vecteur yk a n composantes, c'est donc un lment de l'espace R n des
variables
40
Nous pouvons aussi dire que: la proportion de l'inertie explique par U1 est gale
.
Remarquons que l'inertie qui n'est pas explique par un sous-espace vectoriel donn l'est totalement par
le sous-espace supplmentaire (ensemble des axes qui lui sont orthogonaux).
Connatre le reste de l'inertie explique revient donc dterminer les axes associs aux autres vecteurs
propres.
Si nous nous intressons ce stade aux rsultats fournis par les logiciels d'analyse de donnes nous
remarquerons que dans les sorties de l'ACP la liste des p valeurs propres est trie selon l'ordre
dcroissant.
Le tableau suivant montre une partie des rsultats d'un exemple et si on val propre pourcentage cumul
cherche un axe qui reprsente, parmi tous les axes orthogonaux au
87.6
87.6
premier facteur, le maximum d'inertie explique il doit tre port par le 12.27
vecteur propre associ la deuxime valeur propre, ....
1.00
7.2
94.8
0.35
2.5
97.3
Sur ce tableau on remarque aussi que pour chaque valeur propre on a le
1.3
98.6
pourcentage d'inertie explique par l'axe associ et qui correspond 0.18
aussi sa contribution l'inertie explique. La dernire colonne reprsente les cumuls d'inertie qui
permettent de dterminer la dimension de l'espace de projection.
En prsentant l'ACP nous l'avons dfini comme tant une mthode qui cherche reprsenter un nuage
de point sur un espace de dimension k, tout en remarquant que k doit tre infrieur p, dimension
initiale du nuage.
Dterminer k revient aussi fixer le nombre d'axes parmi ceux correspondant aux vecteurs propres.
Si, pour l'exemple du tableau, on prend les deux premiers axes, et tant donn que l'inertie est
cumulative on aura un taux d'explication de presque 95%(94.8).
Autrement la projection du nuage initial sur les deux premiers axes factoriel restituera 95% de la forme
initiale du nuage.
Si on prend le troisime axe, la reprsentation sera de 97%....
L'ide est donc de se fixer un taux de reprsentation ce qui dterminera la dimension de l'espace
cherch.
Projection et aide l'interprtation
L'ACP du nuage des points X i revient donc diagonaliser la matrice V d'ordre p. Les axes factoriels
constituent une nouvelle base de l'espace R p, et on sera amen calculer les coordonnes des points sur
ces axes pour les reprsenter dans la nouvelle base et plus prcisment sur uniquement k axes.
La coordonne d'un point Xi sur un axe u correspond la projection du point sur l'axe, qui est aussi
gal au produit scalaire entre Xi et le vecteur u de l'axe:
41
Pour interprter les rsultats d'une analyse en composantes principales nous avons aussi besoin de
connatre:
* pour chaque point Xi, la contribution du point l'inertie du nuage: c'est la part avec laquelle il
participe l'inertie totale du nuage:
Elle indique quels sont les points qui ont jou un rle important dans l'analyse.
* pour chaque axe u et chaque point Xi, la contribution du point l'inertie explique par l'axe:
Les CTR permettent d'interprter le contenu d'un axe en identifiant les points qui ont le plus contribu
son positionnement. Notons que nous avons toujours:
* pour chaque point Xi et pour chaque axe u on calcule la part de l'inertie du point restitue par l'axe et
gale :
C'est en fait le carr du cosinus de l'angle form par l'axe U et le point Xi. Il indique la qualit de la
reprsentation du point sur l'axe, nous avons d'ailleurs la relation:
Pour chaque point et pour le sous-espace form des k premiers axes on calcule la qualit de la
reprsentation du point Xi sur ce sous-espace:
Analyse duale: analyse des points variables
Nous avons dj mentionn qu'on travaille gnralement avec des variables centres, notre nuage des
individus est donc centr, son centre de gravit est situ l'origine, ce qui n'est pas le cas pour le nuage
des variables.
Chaque variable X correspond une colonne du tableau X munie d'une masse unitaire. On utilisera
comme reprsentation des variables la notation Z:
42
puisque M est une matrice diagonale dont tous les termes sont gaux 1/n. Toutes les variables Z sont
normes (norme gale 1:
) et les points variables se situent une distance gale 1 de
l'origine. Elles sont donc sur la sphre de rayon 1.
D'autre part la distance entre deux variables est:
avec Z, Z dsignant le produit scalaire de deux variables.
Par ailleurs, et si nous faisons appels nos connaissances en gomtrie, on sait que le produit scalaire
deux vecteurs A et B est gal au produit des normes et du cosinus de l'angle entre les des deux vecteurs,
donc
car les variables sont normes.
Nous avons aussi
coefficient de corrlation puisqu'on travaille
avec des variables centres rduites. On peut donc dire que
= cos( Z, Z).
On a donc:
* deux points variables confondus ont un coefficient de corrlation gal 1.
* deux points variables formant un angle de 90 ont un coefficient de corrlation linaire gal zro.
* deux points variables formant un angle de 180 ont un coefficient de corrlation linaire gal -1.
Ces remarques seront utilises pour donner un sens aux diffrents axes en fonction de la position des
variables.
43
B 4
C 6
D 10 4
E 8
F 0
Exercice1
Soit le tableau individus-variables suivant:
V1 V2 V3
A 8
B 4
C 6
D 10 4
E 8
F 0 3 6
On attribue un poids gal pi= 1/6 chaque individu. La moyenne de chaque
variable, selon l'ordre est:6;4,5.
Comment devient ce tableau une fois ses variables centres?
V1 V2 V3
V1 V2 V3
A 4/3 1/6 0
A 2
A 4
1/2 0
B 2/3 1
B -2 2
B 2
5/2
4/3 7/6
C 0
C 3
7/2
D 4
D 5
7/2
E 2
-2 0
E 4
5/2
F 0
F -6 -1 1
F 0
3/2 3
C 1
5/6
1/2 1
-3 -5
V1 V2 V3
tableau1
tableau2
tableau3
Une fois les variables centres, on choisit comme mtrique M=I6 (matrice diagonale dont les termes en
diagonales sont gaux 1/6, les autres zro).
Considrons la matrice V d'inertie (matrice diagonaliser) qui a pour expression:
44
la transpos de X est aussi not X' ou tX; vous pouvez obtenir la valeur de V partir de ce calcul
matriciel:
Exercice2
Soit le tableau individus-variables suivant:
V1 V2 V3
A 8
B 4
C 6
D 10 4
E 8
F 0
45
forme1
forme2
forme3
Si l'on dsire reprsenter les individus dans le plan form par les deux premiers axes factoriels on aura:
Les parts d'inertie explique par les deux premiers axes factoriels sont:
Le dernier terme correspondant la part d'inertie explique par le plan form de ces deux vecteurs.
Si l'on cherche la part de l'inertie du point A restitue par l'axe 1 (ou encore le cosinus carr) on a:
Exemple 2
Nous pressentions un exemple de rsultat de l'analyse de l'ACP fourni par le logiciel SAS. Nous allons
baser le travail sur un tableau correspondant diffrentes dpenses alimentaires par catgorie
socioprofessionnelle.
Les individus sont 12 catgorie socio-professionnelle (CSP), les variables sont 14 dpenses
alimentaires.
Les abrviations des lignes et des colonnes utilises dans le tableau de donnes, le programme et les
rsultats sont les suivantes :
46
csup
cadre suprieur
exploitant agricole
ouvag
ouvrier agricole
salser
salari de service
cer
saltr
salari tertiaire
crales
lem lgumineuses
artisan artisan
leg
ouvmin ouvrier de mine fru
ouvcha ouvrier de chantiervia
lgumes
poi
poissons
lai
oef
oeuf
suc
hui
huile
ber
sel
sel et condiments
boi
boissons
ext
inactif inactif/td>
fruits
viandes
12
14
Simple Statistics
cer
Mean
StD
13.30733333
1.73364762
lem
1.687166667
0.418812137
leg
10.76283333
2.93081797
fru
4.114750000
2.860612208
via
12.99733333
8.03105318
Simple Statistics
poi
lai
oef
suc
hui
47
Le premier donne pour chaque variable sa moyenne (Mean) et son cart-type (STD).
Le second groupe de rsultat correspond la matrice symtrique des corrlations. C'est une matrice
dont la diagonale est 1, puisque chaque variable est fortement corrle avec elle-mme (1). D'autre
part si la corrlation entre la variable V1 et V2 est la mme que la corrlation entre V2 et V1.
Le groupe de rsultat suivant correspond aux valeurs propres (eignenvalue).
Gnralement on a autant de lignes que de variables. Ainsi au niveau de chaque ligne on trouve:
une valeur propre (i)
la diffrence entre la valeur propre (i) et (i+1)
la proportion de l'inertie explique par l'axe (i) correspondant cette valeur propre
Mean
StD
2.156500000
1.813351217
3.618833333
2.641277853
1.127250000
1.037824747
3.198750000
0.559648286
6.563583333
1.460259781
Simple Statistics
Mean
StD
ber
sel
boi
0.5310000000
0.6995016408
0.6051666667
0.0891126288
5.584500000
3.145973169
ext
2.581750000
4.743518413
Correlation Matrix
cer
cer
lem
leg
fru
via
poi
lai
oef
suc
hui
ber
sel
boi
ext
1.0000
0.9354
0.8600
0.7961
0.7974
0.7366
0.7804
0.7396
0.8553
0.8610
0.6722
0.9227
0.7493
0.6311
lem
0.9354
1.0000
0.9017
0.8905
0.9040
0.8386
0.8917
0.8498
0.9080
0.7497
0.7833
0.9069
0.8666
0.7499
leg
0.8600
0.9017
1.0000
0.9150
0.9194
0.9338
0.8953
0.9214
0.8671
0.6736
0.8460
0.9590
0.8999
0.7974
fru
0.7961
0.8905
0.9150
1.0000
0.9970
0.9720
0.9875
0.9864
0.9221
0.6843
0.9679
0.8654
0.9776
0.9488
via
poi
0.7974
0.9040
0.9194
0.9970
1.0000
0.9708
0.9888
0.9852
0.9275
0.6769
0.9648
0.8673
0.9814
0.9492
0.7366
0.8386
0.9338
0.9720
0.9708
1.0000
0.9723
0.9944
0.8418
0.5989
0.9632
0.8866
0.9461
0.9234
lai
0.7804
0.8917
0.8953
0.9875
0.9888
0.9723
1.0000
0.9834
0.8768
0.6380
0.9616
0.8575
0.9543
0.9348
cer
lem
leg
fru
via
poi
lai
oef
suc
hui
ber
sel
boi
ext
oef
suc
hui
ber
sel
boi
0.7396
0.8498
0.9214
0.9864
0.9852
0.9944
0.9834
1.0000
0.8739
0.5991
0.9789
0.8665
0.9696
0.9489
0.8553
0.9080
0.8671
0.9221
0.9275
0.8418
0.8768
0.8739
1.0000
0.7601
0.8704
0.8372
0.9405
0.8787
0.8610
0.7497
0.6736
0.6843
0.6769
0.5989
0.6380
0.5991
0.7601
1.0000
0.5774
0.7591
0.6347
0.5777
0.6722
0.7833
0.8460
0.9679
0.9648
0.9632
0.9616
0.9789
0.8704
0.5774
1.0000
0.7989
0.9603
0.9859
0.9227
0.9069
0.9590
0.8654
0.8673
0.8866
0.8575
0.8665
0.8372
0.7591
0.7989
1.0000
0.8262
0.7326
0.7493
0.8666
0.8999
0.9776
0.9814
0.9461
0.9543
0.9696
0.9405
0.6347
0.9603
0.8262
1.0000
0.9597
ext
0.6311
0.7499
0.7974
0.9488
0.9492
0.9234
0.9348
0.9489
0.8787
0.5777
0.9859
0.7326
0.9597
1.0000
48
Le taux d'inertie explique par l'espace form par les vecteurs propres (1) .. (i). Pour notre cas on peut
se limiter aux deux premiers axes qui reprsentent 95% prs l'allure du nuage initial.
Le rsultats suivants reprsentent les coordonnes des variables dans le nouveau repre. On donne
gnralement sur tous les nouveaux axes.
Une fois l'espace de projection choisi (pour notre cas les deux premiers) nous avons une reprsentation
du nuage dans ce nouveau repre.
Dans le processus d'interprtation des rsultats, une fois l'espace de projection choisi, on commence
gnralement par l'interprtation des points-variables. Les coordonnes des variables sur les nouveaux
axes montre que leur valeurs sont toutes infrieures 1 en valeur absolue.
Eigenvalue
Difference
Proportion
Cumulative
1 12.2669557 11.2632316
0.8762
0.8762
2 1.0037241 0.6528315
0.0717
0.9479
3 0.3508925 0.1631041
0.0251
0.9730
4 0.1877884 0.0838148
0.0134
0.9864
5 0.1039736 0.0550889
0.0074
0.9938
6 0.0488848 0.0300359
0.0035
0.9973
7 0.0188488 0.0090156
0.0013
0.9986
8 0.0098333 0.0026694
0.0007
0.9994
9 0.0071639 0.0055532
0.0005
0.9999
10 0.0016107 0.0012865
0.0001
1.0000
11 0.0003242 0.0003242
0.0000
1.0000
12 0.0000000 0.0000000
0.0000
1.0000
13 0.0000000 0.0000000
0.0000
1.0000
14 0.0000000
0.0000
1.0000
The PRINCOMP Procedure
Eigenvectors
Prin1
Prin2
Prin3
Prin4
Prin5
Prin6
Prin7
-.098934
-.159693
-.424204
0.061568
0.041702
-.215221
-.043351
-.111523
0.306682
0.562670
0.131560
-.400112
0.120010
0.340800
-.145467
-.493604
0.076513
0.004159
-.071418
0.297193
0.010137
0.131963
-.481525
0.480529
0.159678
0.285175
-.214983
0.050679
-.120868
-.384194
0.434881
-.155038
-.153246
-.039365
-.515830
-.053451
0.454077
-.051874
0.015951
0.219303
0.249634
0.105424
0.394909
-.124929
-.407193
-.166673
-.197501
-.115405
0.028479
-.049262
0.140286
-.277556
0.422864
0.398292
-.283562
0.254392
-.566795
0.520670
-.242281
-.357588
-.043077
0.128929
-.121917
-.058672
0.015321
0.134844
0.087049
0.383838
0.096292
0.041156
Prin12
Prin13
Prin14
Eigenvectors
Prin8
Prin9
Prin10
-.145844
0.064224
0.330432
0.030199
0.028432
-.482819
0.153349
-.275846
-.135375
0.065665
0.650729
-.039559
0.044015
-.285288
Prin11
-.099947
0.071526
0.058137
0.468280
-.585082
0.217787
0.205855
-.535645
0.030601
-.023833
-.088730
0.069787
0.052501
0.161808
49
Les points variables sont situes sur la sphre de rayon 1 dans R 12 et une distance 1 de l'origine des
axes. La projection d'une variable sur un axe ne peut donc avoir qu'une valeur infrieure 1.
En examinant les coordonnes des variables sur les axes choisis, on remarque que toutes les valeurs
sont positives sur le premier axe.
C'est essentiellement d au fait que les variables soient fortement corrles positivement entre elles.
En regardant la matrice des corrlation, on remarque en effet que presque toutes les valeurs sont
suprieures 0.5.
Nous pouvons donner, en fonction de la position des variables, une premire tiquette au premier axe
factoriel:
le premier facteur est celui de la taille, car si, pour une CSP, la valeur d'une dpense alimentaire
augmente (une variable), celle des autres variables a aussi tendance augmenter (le contraire est vrai).
Plus gnralement on interprte un axe en slectionnant les variables ayant les plus fortes coordonnes
en valeur absolue, et on dira que, l'axe oppose les variables qui ont des coordonnes ngatives celles
qui ont des coordonnes positives.
Dans certains logiciels on peut trouver les carres des coordonnes sur les axes. Comme les points
variables sont munis de masses gales, la contribution d'une point-variable l'inertie explique par
l'axe est proportionnelle au carr de la coordonne. Ce carr peut alors s'interprter comme le
coefficient de corrlation linaire avec l'axe considr comme une nouvelle variable.
Pour revenir notre exemple et en nous intressant l'axe 2, on remarque que les variables ayant les
plus grandes valeurs (en valeur absolue) sont:
Huies, Crales et Lgumineuses du cot positif, et les variables Repas l'extrieur, Beurre et uf du
cot ngatif. On peut lui donner comme tiquette: le facteur de la qualit de l'alimentation.
Les relations de dualit permettent d'interprter les positions des points individus sur les axes
conformment au sens que nous lui avons donn partir des points variables.
Nous avons interprt le premier facteur comme tant celui de la taille, et sur ce facteur nous
constatons une disposition ordonnes des catgories dpenses faibles du cot ngatif, par rapport aux
catgories dpenses leves du cot positif de cet axe. Le point cadre suprieur occupe la position la
plus loigne sur cet axe.
Sur le deuxime facteur, nous constatons que les points ayant les plus grandes valeurs (en valeur
absolue) sont cadre suprieur et ouvrier de chantier. On peut interprter cela par la valeur leve des
repas pris l'extrieur pour ces deux catgories
Test
Soit un programme18 d'ACP sur un tableau de donnes reprsentant 28 catgories de personne:
Plot of Principal Components
ident
Prin1
Prin2
csup
9.68012 -1.15091
cadmoy
2.35059 0.58172
expag
-1.08346 1.23926
ouvag
-3.19212 -0.65924
ouvind -0.56995 -0.04118
commer -0.12318 0.00781
saltr
-0.00192 0.10055
salser -0.11776 0.04037
artisan -0.32294 0.62559
ouvcha -4.69343 -2.26350
ouvmin -0.93308 1.36178
inactif -0.99288 0.15775
18
data hom_fem;
input ident $ prof tran mena enfa cour toil repa somm tele lois;
cards;
50
51
HAWE
FAWE
FMWE
HCWE
FCWE
HAES
FAES
FNAE
HMES
FMES
HCES
FCES
HAYO
FAYO
HMYO
hommes maris de
Yougoslavie
femmes clibataires de
Yougoslavie
HCYO
hommes clibataires de
Yougoslavie
52
travail professionnel
les repas
SOMM sommeil
53
TELE
tlvision
LOIS
Une case du tableau contient le nombre d'heures que les sujets d'une catgorie
ont consacr en moyenne l'activit j pendant la dure de l'enqute.
Ce tableau a t soumis une analyse en composantes principales qui a gnr
des rsultats19 numriques et d'autres graphiques.
Interprtation
19
28
10
Simple Statistics
prof
Mean
StD
tran
448.1428571
227.0595801
86.07142857
48.09552884
mena
enfa
cour
276.9642857
198.6067177
33.17857143
30.56026659
108.6785714
32.5144453
somm
tele
lois
Simple Statistics
toil
Mean
StD
repa
94.85714286
11.55570818
116.6428571
28.1966826
785.6071429
98.00000000
29.5864575
40.83843506
352.6428571
68.5998673
Correlation Matrix
prof
tran
mena
enfa
cour
toil
repa
somm
tele
lois
prof 1.0000 0.9386 -.9067 -.8592 -.6541 -.1124 -.4487 -.5570 -.0818 -.1810
tran 0.9386 1.0000 -.8704 -.8021 -.5031 -.0773 -.5780 -.7047 -.0842 -.0761
mena -.9067 -.8704 1.0000 0.8587 0.4997 -.0400 0.3105 0.4378 -.1684 -.1027
enfa -.8592 -.8021 0.8587 1.0000 0.5424 0.1166 0.3107 0.2696 0.1404 -.0919
cour -.6541 -.5031 0.4997 0.5424 1.0000 0.5906 -.1624 -.0220 0.2373 0.1691
toil -.1124 -.0773 -.0400 0.1166 0.5906 1.0000 -.3183 -.2111 0.3288 0.0091
repa -.4487 -.5780 0.3105 0.3107 -.1624 -.3183 1.0000 0.8055 0.3402 0.1220
somm -.5570 -.7047 0.4378 0.2696 -.0220 -.2111 0.8055 1.0000 0.0504 0.2005
tele -.0818 -.0842 -.1684 0.1404 0.2373 0.3288 0.3402 0.0504 1.0000 -.1598
lois -.1810 -.0761 -.1027 -.0919 0.1691 0.0091 0.1220 0.2005 -.1598 1.0000
Difference
Proportion
Cumulative
4.56672318 2.48711428
0.4567
2.07960890 0.73218394
0.2080
1.34742496 0.18217576
0.1347
1.16524919 0.68722577
0.1165
0.47802342 0.25306622
0.0478
0.22495720 0.15379632
0.0225
0.07116088 0.03588927
0.0071
0.03527161 0.00660556
0.0035
0.02866606 0.02575146
0.0029
The PRINCOMP Procedure
0.4567
0.6646
0.7994
0.9159
0.9637
0.9862
0.9933
0.9968
0.9997
54
Le premier axe oppose le travail professionnel et les occupations qui lui sont
lies au travail mnager et aux occupations lies aux enfants.
Sur le plan (1,2) on trouve toutes les catgories masculines gauche et la
plupart des catgories fminines droite. Les seules catgories fminines
situes gauche du graphique sont des catgories actives.
Le deuxime axe oppose les soins personnels et les courses aux repas et au
sommeil.
On remarque que toutes les catgories relatives aux Etats-Unis sont en haut du
graphique, celle des pays de l'est occupent une position moyenne, celles des
payas de l'ouest sont en bas du graphique.
Eigenvalue
10
Difference
0.00291460
Proportion
Cumulative
0.0003
1.0000
Eigenvectors
Prin1
Prin2
prof
-.458996
-.063299
tran
-.457632
0.044658
mena
0.418386
0.032332
enfa
0.403718
0.146508
cour
0.268467
0.506408
toil
0.042124
0.554107
repa
0.263872
-.458558
somm
0.302964
-.414675
tele
0.066573
0.142481
lois
0.046507
-.073987
Prin3
Prin4
Prin5
0.079912
-.074542
-.096969
0.012656
0.002631
0.176519
-.322957
-.192478
-.009137
-.104710
-.227793
0.339204
0.013311
0.197341
0.104296
0.282601
0.163356
-.593516
0.384949
0.001643
0.048196
0.171817
0.160219
-.499175
0.786899
-.159988
0.359331
-.035075
0.888033
0.317079
Eigenvectors
Prin6
prof
0.073029
tran
0.003888
mena
-.050549
enfa
0.537284
cour
-.582504
toil
0.444744
repa
0.204701
somm
-.252992
tele
-.142575
lois
0.200197
Prin7
-.018274
0.072265
0.230621
-.367240
0.214187
0.128121
0.674156
-.480319
-.231350
-.073397
Prin8
-.441952
0.605350
0.479734
-.190522
-.285272
0.133241
-.118602
0.119425
0.198705
0.069573
Prin9
Prin10
0.095335
0.744240
0.620442
0.024857
-.202229
0.596399
0.416486
0.065843
0.384445
0.084337
0.005087
0.019769
0.242627
-.016195
0.327099
0.126188
-.251115
0.157951
-.121906
0.191897
55
NUEES DYNAMIQUES
Les principales tapes
Cette technique de classification a pour but de fournir une partition en k classes (k donn priori) bien
agrges et bien spares entre elles.
Droulement de l'algorithme
Ayant un ensemble d'observations (ou objets), on part d'un choix de k (ici 2) noyaux estim ou tirs au
hasard pris parmi une famille de noyaux appel espace de reprsentation L:
Chaque point de la population est ensuite
affect au noyau dont il est le plus proche.
On a une partition en k classes dont on
calcule les noyaux.
On recommence le procd avec les
nouveaux noyaux. On associe alors chaque point au noyau le plus proche:
Cet algorithme fait gnralement dcrotre
un critre W qui mesure l'adquation entre
les classes et leur noyau respectif. On peut
formellement reprsenter ce critre par:
W:Lk * Pk R+
avec :
Lk = k l'ensemble des k-uples L =(L1, ...,Lk) avec Li .
Pk est l'ensemble des partitions P=(P1,..., Pk) k classes de .
avec D une mesure d'adquation du noyau L i la classe Pi (une petite valeur de D
exprime une bonne adquation entre Li et Pi).
A chaque itration de l'algorithme, la dcroissance du critre exprime une augmentation globale de
l'adquation entre les classes et leurs noyaux.
L'algorithme s'arrte soit lorsque deux itrations successives conduisent la mme partition, soit
lorsqu'un critre convenablement choisi (par exemple la variance intra-classe) cesse de dcrotre de
faon sensible, soit encore parce qu'un nombre maximal d'itration a t fix priori. Dans tous les cas,
la partition obtenue dpendra du choix initial des centres (noyaux) l'tape 0.
Utilisation des centres de gravit
Nous nous intressons particulirement au cas o le noyau est le centre de gravit. Nous prendrons
comme espace des individus l'espace Rp muni dun mtrique euclidien dM.
L'espace de reprsentation L d'une classe est aussi Rp. La mesure d'adquation D est une application de
P() *L dans R+ dfinie par:
La fonction de reprsentation
Nous cherchons optimiser D(A,x) = Ix(A) pour x Rp. D'aprs le thorme de Hygens, on a une
solution qui correspond au centre de gravit de la partie A. La fonction de reprsentation g, qui toute
partition P= (P1, ...Pk) associe sa reprsentation L = (L1,..Lk) est dfinie par:
g(P1, ...Pk)= (L1, ...Lk) o Li est le centre de gravit de Pi
.
Le problme d'optimisation revient chercher le meilleur couple (P,L) Pk*Lk minimisant le critre
d'adquation W entre la partition P = (P1, ...Pk) et sa reprsentation L= (L1, ...Lk). On peut donc crire:
Comme le reprsentant Ll d'une classe Pl est son centre de gravit gl, le critre s'crit:
57
Rsultats
The CLUSTER Procedure
Plot of Principal Components
The CLUSTER Procedure
Average Linkage Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue
1 90342.3547
2 7634.1240
3 3151.2106
4 1596.0893
5
384.9016
6
161.9852
7
94.6394
8
46.4312
9
43.0977
10
27.8118
Difference
Proportion
82708.2307
4482.9134
1555.1214
1211.1877
222.9164
67.3458
48.2081
3.3336
15.2858
Cumulative
0.8730
0.0738
0.0305
0.0154
0.0037
0.0016
0.0009
0.0004
0.0004
0.0003
0.8730
0.9468
0.9772
0.9927
0.9964
0.9980
0.9989
0.9993
0.9997
1.0000
Norm T
RMS i
--Clusters Joined--FREQ
Hawe
Haus
Haes
Hcyo
Fcyo
Hmyo
Fayo
Hayo
Faus
CL27
Fnaw
CL26
CL18
Fcwe
CL16
Fawe
Fnau
Fmus
CL19
CL12
CL13
CL11
CL10
Hmwe
Hmus
Hmes
Hces
Fces
CL24
Faes
CL25
Fcus
Hcwe
Fnae
Hcus
CL20
CL23
CL15
CL21
CL17
Fmwe
CL14
Fmes
CL22
Fnay
Fmyo
Dist
2 0.0318
2 0.0348
2 0.0866
2 0.1143
2 0.1183
3 0.1308
2 0.1379
3 0.1406
2 0.1473
3 0.1604
2 0.2
3 0.2148
6 0.2235
3 0.2693
9 0.3018
3 0.3059
3 0.3188
2 0.3322
5 0.3575
4 0.3674
12 0.3933
4 0.4211
3 0.4307
58
Norm T
RMS i
--Clusters Joined--FREQ
CL9
CL8
9
CL6
CL5
7
CL7
CL4
21
CL2
CL3
28
Plot of Principal Components
Dist
0.4936
0.5665
0.7161
1.4394
Initial Seeds
Cluster
prof
tran
mena
enfa
cour
1
179.0000000
29.0000000
421.0000000
87.0000000
161.0000000
2
560.0000000
105.0000000
375.0000000
45.0000000
90.0000000
3
10.0000000
10.0000000
710.0000000
55.0000000
145.0000000
4
627.0000000
148.0000000
68.0000000
0.0000000
88.0000000
Initial Seeds
Cluster
toil
repa
somm
tele
lois
1
112.0000000
119.0000000 776.0000000
143.0000000
373.0000000
2
90.0000000
95.0000000
745.0000000
60.0000000
235.0000000
3
85.0000000
130.0000000
815.0000000
60.0000000
380.0000000
4
92.0000000
86.0000000
770.0000000
58.0000000
463.0000000
Criterion Based on Final Seeds = 35.3248
Cluster Summary
Maximum Distance
RMS Std
from Seed Radius Nearest Distance Between
Cluster Frequency Deviation to Observation Exceeded Cluster Cluster Centroids
1
4
48.6975
168.7
3
189.8
2
9
42.9990
160.8
4
283.4
3
3
30.1087
96.5752
1
189.8
4
12
31.9386
130.4
2
283.4
Statistics for Variables
Variable Total STD Within STD
R-Square RSQ/(1-RSQ)
prof
227.05958
54.90771
0.948020 18.238249
tran
48.09553
19.39776
0.855409
5.916059
mena 198.60672
54.57104
0.932890
13.901015
enfa
30.56027
13.98163
0.813942
4.374659
cour
32.51445
27.46353
0.365827
0.576858
toil
11.55571
10.95049
0.201782
0.252791
repa
28.19668
25.69932
0.261595
0.354270
somm 29.58646
25.26572
0.351776
0.542678
tele
40.83844
40.26146
0.136051
0.157475
lois
68.59987
64.80409
0.206758
0.260649
Plot of Principal Components
59
OVER-ALL 101.72642
38.15513
0.874949
6.996762
Pseudo F Statistic =
55.97
5.946
WARNING: The two values above are invalid for correlated variables.
Cluster Means
Cluster
prof
tran
mena
enfa
cour
1
154.2500000
25.7500000
505.2500000
81.2500000
137.2500000
2
474.8888889
83.4444444
308.1111111
31.0000000
111.7777778
3
18.0000000
8.3333333
623.6666667
71.3333333
138.3333333
4
633.5833333
127.5833333
90.8333333
9.2500000
89.4166667
Cluster Means
Cluster
toil
repa
somm
tele
lois
1
97.5000000
135.0000000
790.2500000
121.7500000
372.5000000
2
101.3333333
103.6666667
783.5555556
79.7777778
308.3333333
3
89.0000000
146.0000000
832.3333333
90.3333333
381.6666667
4
90.5833333
112.9166667
773.9166667
105.6666667
372.0000000
Cluster Standard Deviations
Cluster
prof
tran
mena
enfa
cour
1
104.5510242
21.4223404
65.2501596
22.3960562
33.3204142
2
64.9931620
21.8867032
69.6301739
15.5483118
21.9361447
3
7.2111026
1.5275252
75.9758734
16.0104133
23.7135685
4
22.6974501
18.6277327
27.5807355
8.2033807
29.8434044
Plot of Principal Components
The FASTCLUS Procedure
Replace=FULL Radius=0 Maxclusters=4 Maxiter=1
Cluster Standard Deviations
Cluster
toil
repa
somm
tele
lois
1
15.6311655
26.6207939
23.5990819
41.4035023
56.8418860
2
14.2214627
27.9776697
32.1212979
28.3009619
73.4642770
3
3.6055513
29.4618397
15.0443788
32.7159492 15.5670592
4
6.7481760
22.8172914
21.1980202
47.8754698
65.6685894
60
61