Professional Documents
Culture Documents
Pardoux
LA CLASSIFICATION AUTOMATIQUE
Exemples
Identifier des groupes d'individus ou de mnages ayant un comportement homogne vis--vis de : la consommation de diffrents produits, la consommation de diffrentes marques ou varits, l'attitude par rapport un produit, Il s'agit de problmes souvent traits avec les mthodes de classification automatique.
Donnes
n objets (ou individus) caractriss par p descripteurs, ou tableau carr symtrique de ressemblances (similarits, dissimilarits, distances).
Indice de dissimilarit
Soit E lensemble des n objets classer. Une dissimilarit d est une application de EE dans R+ telle que : 1. d(i, i) = 0 2. d(i, i) = d(i, i) i E i, i EE
Objectif
Constituer des groupes d'objets homognes et diffrencis, i.e. des groupes d'objets tels que : les objets soient les plus similaires possibles au sein d'un groupe (critre de compacit), les groupes soient aussi dissemblables que possible (critre de sparabilit), la ressemblance ou la dissemblance tant mesure sur l'ensemble des variables descriptives.
Hypothse
On suppose qu'une structure de classes existe au sein de la population tudie, le but de l'analyse est de la mettre jour, de l'identifier. Exemples Classification des consommateurs d'apritifs, Classification de la clientle d'une banque, Classification des 36 000 communes franaises,
Tableaux analyss
La classification est ralise sur : un tableau de valeurs numriques, un tableau de contingence, un tableau de prsence absence , ou un tableau carr symtrique de similarits ou de dissimilarits (distances, par ex.).
Reprsentation
La reprsentation synthtique peut tre : une typologie, un recouvrement (classes empitantes), une partition, une hirarchie de partitions (arbre hirarchique), une hirarchie de recouvrements (pyramide).
Calcul d'une nouvelle matrice de dissimilarits entre les lments (objets isols ou groupes) restants
Stratgie dagrgation
1re tape : si d est une dissimilarit, on choisit ei et ei' tels que d (ei , ei') minimum G1 = {ei , ei' } 2me tape : nouveau tableau de dissimilarits (n 1)(n 1) ncessit de dfinir une mthode d'agrgation entre un individu et un groupe d'individus ou entre deux groupes d'individus.
Mthodes dagrgation
Lien minimum
(A, B) = min{d(a , b), aA, bB}
Lien maximum
(A, B) = max{d(a , b), aA, bB}
Exemple
Agrgation selon le lien minimum
a a b c d e
0 23 35 43 50
b
23 0 21 32 45
c
35 21 0 11 25
d
43 32 11 0 17
e
50 45 25 17 0
b
23 0 45 21
e
50 45 0 17
G1
35 21 17 0
G1 = {c, d}
a b e G1
0 23 50 35
G2
35 21 0
G2 = {e, G1}
a b G2
0 23 35
23
G3 = {b, G2}
a a G3
0 23
G3
23 0
a b c d
Exemple (suite)
Agrgation selon le lien maximum
a a b c d e
0 23 35 43 50
b
23 0 21 32 45
c
35 21 0 11 25
d
43 32 11 0 17
e
50 45 25 17 0
G1 = {c, d}
a a b e G1
0 23 50 43
b
23 0 45 32
e
50 45 0 25
G1
43 32 25 0
G2 = {a, b}
G1
25 0 43
G2
50 43 0
G3 = {e, G1}
G2 G2 G3
0 50
G3
50 0
a b c d
Inertie totale :
I tot
1 = n
i =1
d 2 (e i , g )
I inter
1 = n
1 = n
i =1
k
ni d 2 (g i , g )
I intra
i =1 eG i
d 2 (e, g i )
Au fur et mesure que les regroupements sont effectus, l'inertie intra-classe augmente et l'inertie interclasse diminue, car leur somme est une constante lie aux donnes analyses.
La mthode de Ward
Lorsqu'on remplace deux classes A et B par leur runion, on montre que la diminution de l'inertie interclasse (et donc laugmentation de linertie intraclasse) est gale :
nA nB d 2 ( g A , gB ) n (nA + nB )
La mthode de Ward consiste choisir chaque tape le regroupement de classes tel que laugmentation de linertie intraclasse, utilise comme indice de niveau, soit minimum.
L'utilisateur peut choisir de former une partition avec un nombre de classes arbitraire : il coupe l'arbre pour obtenir des classes les plus homognes possibles.
On calcule de mme un critre mesurant la pertinence de chaque groupe de variables pour interprter la classe (GettlerSumma, 2000).
nkj
*
nj
*
nk
xk x v-test = sk ( X )
avec :
n nk 2 sk ( X ) =
s (X ) n 1 nk
v-test =
Interprtation de la valeur-test
Si |v-test| > 2, la moyenne ou la proportion dans la population globale diffrent significativement de celle dans la classe. Cette interprtation na de sens que pour les variables supplmentaires nayant pas particip la construction des classes : il ny a pas indpendance entre les classes dune partition et une des variables ayant servi dfinir la partition. Pour les variables actives, les valeurs-test constituent de simples mesures de similarit entre variables et classes.
Pratique de la classification
Pour une classification ascendante hirarchique, on coupe larbre hirarchique de faon avoir des classes les plus homognes possibles tout en tant bien spares entre elles en se rfrant lhistogramme des indices de niveau (cf. exemple). La stratgie Analyse factorielle + Classification permet dliminer les fluctuations alatoires et dobtenir des classes plus stables, les axes factoriels tant trs stables relativement lchantillonnage.
Conclusion
Complmentarit entre analyse factorielle et classification : la classification (dans l'espace entier) permet de voir au-del du plan factoriel.
Intrts de la classification
Les classes obtenues assurent une vue concise et structure des donnes. Des regroupements inattendus apparaissent. Des regroupements attendus nexistent pas. Les classes significatives entranent la dfinition de fonctions de dcision permettant dattribuer un nouvel individu la classe dont il est le plus proche.
La classification a t ralise laide du logiciel SPAD sur les 10 premiers facteurs de lACP qui rendent compte de 98,9% de linertie totale.
CLASSIFICATION HIERARCHIQUE (VOISINS RECIPROQUES) SUR LES 10 PREMIERS AXES FACTORIELS DESCRIPTION DES NOEUDS NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU 14 4 13 2 2.00 0.52631 ******* 15 6 3 2 2.00 0.57602 ******** 16 15 1 3 3.00 0.71932 ********** 17 2 12 2 2.00 0.93005 ************ 18 9 11 2 2.00 1.10279 ************** 19 8 16 4 4.00 1.30177 ***************** 20 14 10 3 3.00 1.41883 ******************* 21 7 5 2 2.00 1.64450 ********************* 22 21 18 4 4.00 2.00764 ************************** 23 17 19 6 6.00 2.18091 **************************** 24 20 23 9 9.00 3.04725 *************************************** 25 22 24 13 13.00 6.30253 ********************************************************************************* SOMME DES INDICES DE NIVEAU = 21.75792
Dendrogramme
Classification hierarchique directe Grce Espagne Italie Portugal Danemark Sude Pays-Bas Autriche Royaume-Uni Irlande France Belgique Allemagne
4.00 Effectif = Moyenne dans la classe 38,850 8,525 7,838 7,075 1,268 -6,475 17,975 0,900 31,375 67,975
Variables caractristiques same infl mDP TP f95 mDE seul div 2nd sala
Moyenne gnrale 28,615 4,831 5,046 15,785 1,507 0,158 24,982 1,975 55,508 80,585
2.00 Effectif =
Moyenne Moyenne Ecart-type dans la classe gnrale dans la classe 0,380 0,139 0,040
CLASSE 5 / 5
(Poids =
2.00 Effectif =
2) Ecart-type gnral 6,666 3,346 9,923 Valeur-Test Probabilit 2,37 2,33 -2,39 0,009 0,010 0,008
Moyenne Moyenne Ecart-type dans la classe gnrale dans la classe 22,300 10,100 64,550 11,597 4,831 80,585 11,300 4,600 10,250
Dendrogramme de la classification sur les variables du 1er groupe Structures familiales et dmographie
Classification hierarchique directe Espagne Italie Portugal Grce Irlande Sude France Royaume-Uni Belgique Autriche Pays-Bas Danemark Allemagne