You are on page 1of 24

Séminaire :

Logiciel spécialisé

ECH-CHEBANY Mohamed
Chapitre II

Introduction à la classification
automatique :
La pratique de la Classification
Ascendante Hiérarchique (C.A.H.)
I- Généralités :

 La classification est une méthode d’analyse des


données multidimensionnelle
 la Classification a pour but d'obtenir une représentation
schématique simple d'un tableau rectangulaire de
données dont les colonnes, suivant l'usage, sont des
descripteurs de l'ensemble des observations, placées en
lignes.
 L'objectif le plus simple d'une classification est de
répartir l'échantillon en groupes d'observations
homogènes, chaque groupe étant bien différencié des
autres.
 Objectifs :

Les techniques de classification sont des


techniques qui permettent de construire des
"typologies d’individus" en regroupant des
individus (ou des produits, des entreprises,
des animaux, ...) en classes homogènes.
 Les techniques de classification est donc une
démarche algorithmique itérative facile à
comprendre dont l’objectif est de chercher à
effectuer des regroupements d’individus
statistiques les plus proches selon plusieurs
caractéristiques (dans un espace à
dimensions multiples).
 En bref, on désire avoir une hiérarchie, c'est
à dire une suite de partitions "emboîtées", de
plus en plus fines, sur l'ensemble
d'observations initial.
 Une telle hiérarchie peut avantageusement
être résumée par un arbre hiérarchique dont
les nœuds (m, n, p, q) symbolisent les
diverses subdivisions de l'échantillon ; les
éléments de ces subdivisions étant les objets
(a, b, c, d, e), placés à l'extrémité inférieure
des branches qui leur sont reliées.
 Le niveau des nœuds, qui est le plus souvent
chiffré, est sensé indiquer un degré de
ressemblance entre les objets correspondants.
 Ainsi, sur notre figure 1, les objets a et d se
ressemblent plus que les objets c et e.
Remarquons, en passant, que si on coupe cet
arbre à un niveau intermédiaire entre n et p, on
obtient une partition en trois classes de
l'ensemble étudié, savoir les parties {a, d}, {b},
{c, e}.
 En faisant varier ce niveau de troncature on
obtient les diverses partitions constituant la
hiérarchie.
On distingue généralement deux grands types
d’algorithmes de classification :

- La classification hiérarchique: Classification


ascendante hiérarchique (CAH),
Classification descendante hiérarchique
(CDH), …
- La classification non-hiérarchique : la
méthode des nuées dynamiques
les classifications hiérarchiques qui s’utilisent
généralement sur des jeux de données
relativement petits,
Dans celles-ci l'ensemble tout entier est
d'abord scindé en deux, puis chacune de ses
parties est, à son tour subdivisée, et ainsi de
suite.
 Il y a d'abord les algorithmes construisant
une hiérarchie par agrégations successives
d'objets, puis de groupes, en fonction des
distances entre objets ou groupes. On les
appelle "Constructions ascendantes de
hiérarchies", en abrégé CAH.

 A l'inverse les "Constructions descendantes


de hiérarchies", en abrégé CDH, procèdent
par dichotomies successives.
 Classification non hiérarchique :

Dans le troisième groupe de méthodes on peut


rassembler toutes celles qui se limitent à
l'élaboration d'une partition. Par des
algorithmes très divers, ces méthodes ont
pour objectif de détecter les zones à forte
densité dans l'espace des observation
Exemple : la méthode de nuées dynamiques
fixe dés le départ le nombre de partition à
trouver.
 La classification a un rôle à jouer dans toutes
les sciences et techniques qui font appel à la
 statistique multidimensionnelle. Citons tout
d'abord les sciences biologiques : botanique,
zoologie,
 écologie, ... Ces sciences utilisent également
le terme de "taxinomie" pour désigner l'art de
la
 classification. De même les sciences de la
terre et des eaux : géologie, pédologie,
géographie, étude
 des pollutions, font grand usage de
classifications.
Classification Ascendante Hiérarchique
(CAH)
 Par défaut, la classification hiérarchique
procède à un regroupement d’individus (les
lignes pour un fichier de données SPSS)
caractérisés par des critères continus (les
variables).
 Lors de la première étape, chaque individu
est considéré comme une classe à part
entière. Nous avons donc, à ce niveau du
processus, autant de classes que d’individus
(N classes pour N individus).
 L’algorithme de classification hiérarchique
commence par calculer une distance entre
toutes les classes (généralement, la distance
euclidienne est utilisée) : plus cette distance
sera petite, plus les classes seront proches
(similaires).
 Une fois l’ensemble des distances entre les
points calculées, l’algorithme va fusionner les
deux individus (ou les deux classes) ayant la
distance la plus petite (donc les plus
semblables) pour ne constituer qu’une seule
classe.
 Ainsi, à la fin de la première étape, une
classe a disparu (N-1 classes pour N
individus).
 L’algorithme repart à zéro puisqu’il recalcule,
à nouveau, toutes les distances entre les
classes, pour fusionner deux nouvelles
classes, selon le même principe que
précédemment (les classes dont les
distances sont les plus petites).
 A la fin de la deuxième étape, nous avons N-
2 classes pour N individus.
 Ce processus continue jusqu’à ce qu’il ne
reste plus qu’une seule classe. En d’autres
termes, toutes les classes finissent, en fin
d’algorithme par ne constituer qu’une seule
classe (1 classe pour N individus).
 Soit un ensemble avec 9 éléments : a, b, c, d,
e, f, g, h, i. Supposons que la CHA a produit
la suite de partitions suivante :
 - niveau 0 a b c d e f g h i
 - niveau 1 a b c d (e f) (g h) i
 - niveau 2 (a b d) c (e f) (g h) i
 - niveau 4 (a b d c) (e f g h) i
 - niveau 5 (a b c d e f g h i)
 Les variables qui caractérisent les individus
sont, généralement, continues.
Exemple : les âges, des salaires, des chiffres
d’affaires, des volumes de ventes, etc.

 L’utilisation de données ordinales est


également acceptée comme des indices de
satisfaction (échelle de 1 à 7, par exemple).
 On voit qu'il ne faut pas confondre
classification et classement. Dans un
classement on affecte les objets à des
groupes préétablis ; c'est le but de l'analyse
discriminante que de fixer des règles pour
déterminer la classe des objets. La
classification est donc, en quelque sorte, le
travail préliminaire au classement, savoir la
recherche des classes "naturelles" dans le
domaine étudié.
 Etant donné la faiblesse des bases
théoriques de tous ces algorithmes usuels, il
serait imprudent de se fier totalement aux
résultats ainsi obtenus. C'est pourquoi nous
recommandons vivement à l'utilisateur de
toujours confronter ses résultats à ceux d'une
analyse factorielle
 L'un des plus grands classificateurs a, sans
aucun doute, été le savant suédois Linné qui,
au 18-ème siècle, a établi une classification
du monde vivant en général et du règne
végétal en particulier, classification encore en
vigueur aujourd'hui chez les spécialistes des
sciences naturelles. La première moitié du
20-ème siècle a vu un certain nombre de
tentatives pour rationaliser le processus
mental utilisé par Linné. Mais ce n'est qu'à
partir des années 1960, avec la diffusion de
l'informatique en milieu universitaire, que
sont apparus un grand nombre d'algorithmes

You might also like