You are on page 1of 50

Universit Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C.

Pardoux

LA CLASSIFICATION AUTOMATIQUE

Une problmatique en Gestion - Marketing


Dcouper le march en sous-ensembles dont les lments ragissent de faon similaire aux variations des variables d'action du march.

Exemples
Identifier des groupes d'individus ou de mnages ayant un comportement homogne vis--vis de : la consommation de diffrents produits, la consommation de diffrentes marques ou varits, l'attitude par rapport un produit, Il s'agit de problmes souvent traits avec les mthodes de classification automatique.

Donnes
n objets (ou individus) caractriss par p descripteurs, ou tableau carr symtrique de ressemblances (similarits, dissimilarits, distances).

Indice de dissimilarit
Soit E lensemble des n objets classer. Une dissimilarit d est une application de EE dans R+ telle que : 1. d(i, i) = 0 2. d(i, i) = d(i, i) i E i, i EE

Une distance satisfait les proprits dun indice de dissimilarit.

Objectif
Constituer des groupes d'objets homognes et diffrencis, i.e. des groupes d'objets tels que : les objets soient les plus similaires possibles au sein d'un groupe (critre de compacit), les groupes soient aussi dissemblables que possible (critre de sparabilit), la ressemblance ou la dissemblance tant mesure sur l'ensemble des variables descriptives.

Hypothse
On suppose qu'une structure de classes existe au sein de la population tudie, le but de l'analyse est de la mettre jour, de l'identifier. Exemples Classification des consommateurs d'apritifs, Classification de la clientle d'une banque, Classification des 36 000 communes franaises,

Tableaux analyss
La classification est ralise sur : un tableau de valeurs numriques, un tableau de contingence, un tableau de prsence absence , ou un tableau carr symtrique de similarits ou de dissimilarits (distances, par ex.).

Reprsentation
La reprsentation synthtique peut tre : une typologie, un recouvrement (classes empitantes), une partition, une hirarchie de partitions (arbre hirarchique), une hirarchie de recouvrements (pyramide).

Les tapes dune classification automatique


1. Choix des donnes. 2. Calcul des dissimilarits entre les n individus partir du tableau initial. 3. Choix d'un algorithme de classification et excution. 4. L'interprtation des rsultats : valuation de la qualit de la classification, description des classes obtenues.

Une classification : remarque


Une classification automatique obtenue sur un ensemble n'est jamais LA classification de cet ensemble, mais une classification (parmi beaucoup d'autres) tablie partir de variables et de mthodes choisies intentionnellement.

Etape 1 : choix des donnes


La classification obtenue est lie aux variables choisies pour dcrire les individus. On distingue : les variables actives, celles sur lesquelles sera base la classification des individus, les variables illustratives (ou supplmentaires) qui serviront dcrire les classes constitues : variables dcrivant les caractristiques de l'individu (variables sociodmographiques, ).

Etape 2 : calcul des ressemblances


Il existe un grand choix de mesures de ressemblances. Le tableau obtenu est un tableau carr de dimension n.
Variables quantitatives La distance euclidienne est une mesure possible de la ressemblance. Dans le cas de variables htrognes, il faut travailler sur les donnes centres rduites. Variables qualitatives De nombreux indices de ressemblance ont t proposs : dans le cas d'objets dcrits par des variables binaires, indice de Jaccard, indice de Russel et Rao, (Saporta, 1990).

Les mthodes de classification hirarchique


La classification ascendante hirarchique (CAH) conduit la construction d'un arbre de classification (ou dendrogramme) montrant le passage des n individus au groupe total par une succession de regroupements. La classification descendante hirarchique procde l'inverse par subdivisions successives de l'ensemble classer. On peut obtenir une partition partir dune hirarchie (partitionnement indirect).

Les mthodes de partitionnement direct


Oprer au sens d'un critre donn, le meilleur regroupement possible des individus en un nombre choisi a priori de classes. Mthodes : agrgation autour des centres mobiles, mthode des nues dynamiques (Lebart et al., 2000). Principe de ces mthodes : constitution de k groupes (k tant un nombre choisi par l'analyste) partir des n individus sur la base dun algorithme itratif Recentrage/Raffectation en essayant d'optimiser un indice global mesurant la qualit de la classification.
Remarque : (2n 1 1) partitions de n individus en 2 classes, exploration intelligente, appele encore heuristique.

Algorithme de la classification ascendante hirarchique


Phase pralable : Calcul des dissimilarits des objets 2 2 Entres : n(n 1)/2 dissimilarits Regroupement des 2 lments les plus proches

jusqu'au regroupement de tous les objets en un seul groupe : (n 1) tapes

Calcul d'une nouvelle matrice de dissimilarits entre les lments (objets isols ou groupes) restants

Stratgie dagrgation
1re tape : si d est une dissimilarit, on choisit ei et ei' tels que d (ei , ei') minimum G1 = {ei , ei' } 2me tape : nouveau tableau de dissimilarits (n 1)(n 1) ncessit de dfinir une mthode d'agrgation entre un individu et un groupe d'individus ou entre deux groupes d'individus.

Mthodes dagrgation
Lien minimum
(A, B) = min{d(a , b), aA, bB}

Lien maximum
(A, B) = max{d(a , b), aA, bB}

Distance des centres de gravit


(A, B) = d(ga , gb)

Exemple
Agrgation selon le lien minimum
a a b c d e
0 23 35 43 50

b
23 0 21 32 45

c
35 21 0 11 25

d
43 32 11 0 17

e
50 45 25 17 0

b
23 0 45 21

e
50 45 0 17

G1
35 21 17 0

G1 = {c, d}

a b e G1

0 23 50 35

Tableau des dissimilarits


a b
23 0 21

G2
35 21 0

G2 = {e, G1}

a b G2

0 23 35

23

G3 = {b, G2}

a a G3
0 23

G3
23 0

a b c d

Exemple (suite)
Agrgation selon le lien maximum
a a b c d e
0 23 35 43 50

b
23 0 21 32 45

c
35 21 0 11 25

d
43 32 11 0 17

e
50 45 25 17 0

G1 = {c, d}

a a b e G1
0 23 50 43

b
23 0 45 32

e
50 45 0 25

G1
43 32 25 0

Tableau des dissimilarits 50


e e G1 G2
0 25 50

G2 = {a, b}

G1
25 0 43

G2
50 43 0

G3 = {e, G1}

G2 G2 G3
0 50

G3
50 0

a b c d

Classification dans un espace euclidien Inerties interclasse et intraclasse


Soit une classification en k groupes d'effectifs n1, ... , nk , les individus tant des points d'un espace euclidien. Notons les groupes G1, ... , Gk , et g1, ... , gk leurs centres de gravit (g est le centre de gravit du nuage).

Inertie totale :

I tot

1 = n

i =1

d 2 (e i , g )

Inertie interclasse : Inertie intraclasse :

I inter

1 = n
1 = n

i =1
k

ni d 2 (g i , g )

I intra

i =1 eG i

d 2 (e, g i )

Critre dagrgation selon linertie


Thorme de Huygens :
Inertie totale = Inertie inter-classe + Inertie intra-classe

Au fur et mesure que les regroupements sont effectus, l'inertie intra-classe augmente et l'inertie interclasse diminue, car leur somme est une constante lie aux donnes analyses.

La mthode de Ward
Lorsqu'on remplace deux classes A et B par leur runion, on montre que la diminution de l'inertie interclasse (et donc laugmentation de linertie intraclasse) est gale :

nA nB d 2 ( g A , gB ) n (nA + nB )
La mthode de Ward consiste choisir chaque tape le regroupement de classes tel que laugmentation de linertie intraclasse, utilise comme indice de niveau, soit minimum.

Intrt de la mthode de Ward


Lagrgation selon le lien minimum a linconvnient dinduire des effets de chane (les objets sagrgent un par un au groupe dj constitu), mais dforme peu si on reconstitue les dissimilarits partir de larbre. Lagrgation selon le lien maximum a, par contre, linconvnient de dformer beaucoup. La mthode de Ward, aise mettre en uvre lorsque la classification est effectue aprs une analyse factorielle (les objets classer tant reprs par leurs coordonnes sur les premiers axes factoriels), constitue une trs bonne mthode de classification ascendante hirarchique sur donnes euclidiennes.

Exemple darbre hirarchique (ou dendrogramme)


Classification hierarchique directe Grce Espagne Italie Portugal Danemark Sude Pays-Bas Autriche Royaume-Uni Irlande France Belgique Allemagne

L'utilisateur peut choisir de former une partition avec un nombre de classes arbitraire : il coupe l'arbre pour obtenir des classes les plus homognes possibles.

Aides linterprtation dune partition


Une partition est considrablement enrichie par une description des classes laide des individus et des variables.

Interprtation par les individus


Pour chaque classe, on examine : son effectif, son diamtre (distance entre les 2 points les plus loigns), la sparation (distance minimum entre la classe considre et la classe la plus proche) et le numro de la classe la plus proche, les identits des individus les plus proches du centre de gravit de la classe ou parangons , les identits des lindividus les plus loigns du centre de gravit de la classe ou extrmes .

Interprtation par les variables : une par une


On calcule un critre mesurant la pertinence de chaque variable de faon isole pour interprter la classe. Exemple : prix . critre fort pour cette classe ge : [18 ; 25 ans] ... critre faible pour cette classe
Est-ce que tous les lments de la classe ont certaine(s) valeur(s) de cette variable (condition ncessaire dappartenance la classe) ? Est-ce que certaine(s) valeur(s) de cette variable ne se rencontrent que dans cette classe (condition suffisante dappartenance la classe) ? ...

Interprtation par des groupes de variables


Mthode de Marquage de donnes qui lie par des conjonctions des plages de valeurs de diverses variables entre elles, caractristiques de la classe. Exemple :
ge : [18 ; 25 ans] ET distribution : grande surface ET achat : VTT

On calcule de mme un critre mesurant la pertinence de chaque groupe de variables pour interprter la classe (GettlerSumma, 2000).

Interprtation par les variables continues


Comparaison de la moyenne xk et de lcart-type sk dune variable X dans la classe k la moyenne gnrale et lcart-type gnral.

Interprtation par les variables nominales


Classe k Modalit j Autres modalits Population Autres classes * * * Population

nkj
*

nj
*

nk

Pourcentage global nj / n Pourcentage mod/clas nkj / nk Pourcentage cla / mod nkj / nj

Un exemple de critre : la valeur-test


Ces statistiques sur les variables peuvent tre converties en un critre appel valeur-test . La valeur-test permet de slectionner les variables continues ou les modalits des variables nominales les plus caractristiques de chaque classe. Cest un critre de pertinence qui sapplique aussi bien dans linterprtation dune classe : par chaque variable une par une, que par Marquage, pour un groupe de variables.

Valeur-test pour les variables continues


La valeur-test est gale lcart entre la moyenne dans la classe et la moyenne gnrale exprime en nombre dcarts-types :

xk x v-test = sk ( X )
avec :

n nk 2 sk ( X ) =

s (X ) n 1 nk

Valeur-test pour les variables nominales


Valeur-test de la modalit j dans la classe k :
n n nk n j n j 1 nk n 1 n n n jk nk nj

v-test =

Interprtation de la valeur-test
Si |v-test| > 2, la moyenne ou la proportion dans la population globale diffrent significativement de celle dans la classe. Cette interprtation na de sens que pour les variables supplmentaires nayant pas particip la construction des classes : il ny a pas indpendance entre les classes dune partition et une des variables ayant servi dfinir la partition. Pour les variables actives, les valeurs-test constituent de simples mesures de similarit entre variables et classes.

Pratique de la classification
Pour une classification ascendante hirarchique, on coupe larbre hirarchique de faon avoir des classes les plus homognes possibles tout en tant bien spares entre elles en se rfrant lhistogramme des indices de niveau (cf. exemple). La stratgie Analyse factorielle + Classification permet dliminer les fluctuations alatoires et dobtenir des classes plus stables, les axes factoriels tant trs stables relativement lchantillonnage.

Pratique de la classification (suite)


La stratgie Classification mixte , consistant pratiquer une classification ascendante hirarchique sur quelques dizaines de groupes homognes obtenus par un algorithme dagrgation autour de centres mobiles, est bien adapte au partitionnement dun ensemble comprenant un grand nombre dindividus (des milliers, voire des dizaines de milliers). Lhomognit des classes obtenues peut tre optimise par une procdure de consolidation qui consiste utiliser de nouveau une procdure dagrgation autour des centres mobiles.

Pratique de la classification (suite)


La mthode de Ward sallie efficacement avec les constructions de partition du type Raffectation / Recentrage en fournissant une partition initiale de bonne qualit. Lexigence de variables quantitatives pour cette mthode peut tre satisfaite grce un traitement pralable par analyse factorielle.

Conclusion
Complmentarit entre analyse factorielle et classification : la classification (dans l'espace entier) permet de voir au-del du plan factoriel.

Intrts de la classification
Les classes obtenues assurent une vue concise et structure des donnes. Des regroupements inattendus apparaissent. Des regroupements attendus nexistent pas. Les classes significatives entranent la dfinition de fonctions de dcision permettant dattribuer un nouvel individu la classe dont il est le plus proche.

Classification sur variables


La classification sur individus, afin de les regrouper en un nombre restreint de classes reprsentatives, est la plus utilise, mais on peut aussi faire, aprs avoir transpos le fichier de donnes, une classification sur variables afin de rduire leur nombre et ventuellement, tudier leurs redondances.

Classification sur les donnes utilises pour lexemple trait en ACP


Economie et Statistique n332-333, 2000, Insee

La classification a t ralise laide du logiciel SPAD sur les 10 premiers facteurs de lACP qui rendent compte de 98,9% de linertie totale.
CLASSIFICATION HIERARCHIQUE (VOISINS RECIPROQUES) SUR LES 10 PREMIERS AXES FACTORIELS DESCRIPTION DES NOEUDS NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU 14 4 13 2 2.00 0.52631 ******* 15 6 3 2 2.00 0.57602 ******** 16 15 1 3 3.00 0.71932 ********** 17 2 12 2 2.00 0.93005 ************ 18 9 11 2 2.00 1.10279 ************** 19 8 16 4 4.00 1.30177 ***************** 20 14 10 3 3.00 1.41883 ******************* 21 7 5 2 2.00 1.64450 ********************* 22 21 18 4 4.00 2.00764 ************************** 23 17 19 6 6.00 2.18091 **************************** 24 20 23 9 9.00 3.04725 *************************************** 25 22 24 13 13.00 6.30253 ********************************************************************************* SOMME DES INDICES DE NIVEAU = 21.75792

Daprs lhistogramme des indices de niveau, on peut envisager 2, 3 ou 5 classes.

Dendrogramme
Classification hierarchique directe Grce Espagne Italie Portugal Danemark Sude Pays-Bas Autriche Royaume-Uni Irlande France Belgique Allemagne

Reprsentation de la partition en 3 classes dans le 1er plan principal de lACP

Description de la partition en 3 classes


{Autriche, Royaume-Uni, France, Irlande, Belgique, Allemagne} {Danemark, Sude, Pays-Bas} {Grce, Espagne, Italie, Portugal}
Caractrisation par les variables continues des classes de la partition
CLASSE 2 / 3 (Poids = 3.00 Effectif = Moyenne dans la classe 27,200 4,970 33,467 (Poids = 3) Ecart-type dans la classe 6,632 0,638 0,899 Ecart-type gnral 8,512 1,464 3,052 Valeur-Test Probabilit 2,54 2,42 -2,96 0,005 0,008 0,002 Variables caractristiques TP DEP Hres CLASSE 3 / 3 Moyenne gnrale 15,785 3,106 38,231 4) Ecart-type dans la classe 4,053 3,798 2,777 1,266 0,097 5,395 4,391 0,274 8,287 8,018 Ecart-type gnral 7,765 3,346 2,624 8,512 0,229 6,207 6,569 0,863 19,000 9,923 Valeur-Test Probabilit 3,04 2,55 2,46 -2,36 -2,41 -2,47 -2,55 -2,92 -2,93 -2,93 0,001 0,005 0,007 0,009 0,008 0,007 0,005 0,002 0,002 0,002

4.00 Effectif = Moyenne dans la classe 38,850 8,525 7,838 7,075 1,268 -6,475 17,975 0,900 31,375 67,975

Variables caractristiques same infl mDP TP f95 mDE seul div 2nd sala

Moyenne gnrale 28,615 4,831 5,046 15,785 1,507 0,158 24,982 1,975 55,508 80,585

Aucune variable ne caractrise la classe 1. Les variables illustratives sont en gras.

Reprsentation de la partition en 5 classes dans le 1er plan principal de lACP

Description de la partition en 5 classes


{ France, Belgique, Allemagne, Irlande} {Autriche, Royaume-Uni} {Danemark, Sude, Pays-Bas} { Italie, Portugal} {Grce, Espagne}
Caractrisation par les variables continues des classes de la partition
CLASSE 3 / 5 (Poids = 3.00 Effectif = 3) Ecart-type gnral 8,512 1,464 3,052 Valeur-Test Probabilit 2,54 2,42 -2,96 0,005 0,008 0,002 Variables caractristiques TP DEP Hres CLASSE 4 / 5 (Poids = Moyenne Moyenne Ecart-type dans la classe gnrale dans la classe 27,200 4,970 33,467 15,785 3,106 38,231 2) Ecart-type gnral 0,125 Valeur-Test Probabilit 2,84 0,002 6,632 0,638 0,899

2.00 Effectif =

Variables caractristiques Djeu

Moyenne Moyenne Ecart-type dans la classe gnrale dans la classe 0,380 0,139 0,040

CLASSE 5 / 5

(Poids =

2.00 Effectif =

2) Ecart-type gnral 6,666 3,346 9,923 Valeur-Test Probabilit 2,37 2,33 -2,39 0,009 0,010 0,008

Variables caractristiques CDD infl sala

Moyenne Moyenne Ecart-type dans la classe gnrale dans la classe 22,300 10,100 64,550 11,597 4,831 80,585 11,300 4,600 10,250

Aucune variable ne caractrise les classes 1 et 2.

Comparaison de partitions obtenues sur le mme ensemble dindividus


Une classification des 13 pays peut aussi tre effectue en utilisant les descripteurs dun autre groupe de variables. Une partition obtenue avec un groupe de variables peut tre archive et utilise en variable supplmentaire pour expliquer des partitions opres avec un autre groupe, ce qui peut mettre en vidence des liaisons entre groupes de variables. On peut aussi construire le tableau de contingence qui croise deux partitions obtenues avec deux groupes de variables. Le logiciel SPAD permet denregistrer des partitions : Archivages, exportations , puis Archivages des coordonnes factorielles et partitions .

Dendrogramme de la classification sur les variables du 1er groupe Structures familiales et dmographie
Classification hierarchique directe Espagne Italie Portugal Grce Irlande Sude France Royaume-Uni Belgique Autriche Pays-Bas Danemark Allemagne

Trois partitions peuvent tre envisages : 3 classes, 4 classes, 6 classes.

Reprsentation de la partition en 3 classes


avec projection de la partition en 3 classes obtenue avec le groupe March du travail

You might also like