Introduction à la classification automatique : La pratique de la Classification Ascendante Hiérarchique (C.A.H.) I- Généralités :
La classification est une méthode d’analyse des
données multidimensionnelle la Classification a pour but d'obtenir une représentation schématique simple d'un tableau rectangulaire de données dont les colonnes, suivant l'usage, sont des descripteurs de l'ensemble des observations, placées en lignes. L'objectif le plus simple d'une classification est de répartir l'échantillon en groupes d'observations homogènes, chaque groupe étant bien différencié des autres. Objectifs :
Les techniques de classification sont des
techniques qui permettent de construire des "typologies d’individus" en regroupant des individus (ou des produits, des entreprises, des animaux, ...) en classes homogènes. Les techniques de classification est donc une démarche algorithmique itérative facile à comprendre dont l’objectif est de chercher à effectuer des regroupements d’individus statistiques les plus proches selon plusieurs caractéristiques (dans un espace à dimensions multiples). En bref, on désire avoir une hiérarchie, c'est à dire une suite de partitions "emboîtées", de plus en plus fines, sur l'ensemble d'observations initial. Une telle hiérarchie peut avantageusement être résumée par un arbre hiérarchique dont les nœuds (m, n, p, q) symbolisent les diverses subdivisions de l'échantillon ; les éléments de ces subdivisions étant les objets (a, b, c, d, e), placés à l'extrémité inférieure des branches qui leur sont reliées. Le niveau des nœuds, qui est le plus souvent chiffré, est sensé indiquer un degré de ressemblance entre les objets correspondants. Ainsi, sur notre figure 1, les objets a et d se ressemblent plus que les objets c et e. Remarquons, en passant, que si on coupe cet arbre à un niveau intermédiaire entre n et p, on obtient une partition en trois classes de l'ensemble étudié, savoir les parties {a, d}, {b}, {c, e}. En faisant varier ce niveau de troncature on obtient les diverses partitions constituant la hiérarchie. On distingue généralement deux grands types d’algorithmes de classification :
- La classification hiérarchique: Classification
ascendante hiérarchique (CAH), Classification descendante hiérarchique (CDH), … - La classification non-hiérarchique : la méthode des nuées dynamiques les classifications hiérarchiques qui s’utilisent généralement sur des jeux de données relativement petits, Dans celles-ci l'ensemble tout entier est d'abord scindé en deux, puis chacune de ses parties est, à son tour subdivisée, et ainsi de suite. Il y a d'abord les algorithmes construisant une hiérarchie par agrégations successives d'objets, puis de groupes, en fonction des distances entre objets ou groupes. On les appelle "Constructions ascendantes de hiérarchies", en abrégé CAH.
A l'inverse les "Constructions descendantes
de hiérarchies", en abrégé CDH, procèdent par dichotomies successives. Classification non hiérarchique :
Dans le troisième groupe de méthodes on peut
rassembler toutes celles qui se limitent à l'élaboration d'une partition. Par des algorithmes très divers, ces méthodes ont pour objectif de détecter les zones à forte densité dans l'espace des observation Exemple : la méthode de nuées dynamiques fixe dés le départ le nombre de partition à trouver. La classification a un rôle à jouer dans toutes les sciences et techniques qui font appel à la statistique multidimensionnelle. Citons tout d'abord les sciences biologiques : botanique, zoologie, écologie, ... Ces sciences utilisent également le terme de "taxinomie" pour désigner l'art de la classification. De même les sciences de la terre et des eaux : géologie, pédologie, géographie, étude des pollutions, font grand usage de classifications. Classification Ascendante Hiérarchique (CAH) Par défaut, la classification hiérarchique procède à un regroupement d’individus (les lignes pour un fichier de données SPSS) caractérisés par des critères continus (les variables). Lors de la première étape, chaque individu est considéré comme une classe à part entière. Nous avons donc, à ce niveau du processus, autant de classes que d’individus (N classes pour N individus). L’algorithme de classification hiérarchique commence par calculer une distance entre toutes les classes (généralement, la distance euclidienne est utilisée) : plus cette distance sera petite, plus les classes seront proches (similaires). Une fois l’ensemble des distances entre les points calculées, l’algorithme va fusionner les deux individus (ou les deux classes) ayant la distance la plus petite (donc les plus semblables) pour ne constituer qu’une seule classe. Ainsi, à la fin de la première étape, une classe a disparu (N-1 classes pour N individus). L’algorithme repart à zéro puisqu’il recalcule, à nouveau, toutes les distances entre les classes, pour fusionner deux nouvelles classes, selon le même principe que précédemment (les classes dont les distances sont les plus petites). A la fin de la deuxième étape, nous avons N- 2 classes pour N individus. Ce processus continue jusqu’à ce qu’il ne reste plus qu’une seule classe. En d’autres termes, toutes les classes finissent, en fin d’algorithme par ne constituer qu’une seule classe (1 classe pour N individus). Soit un ensemble avec 9 éléments : a, b, c, d, e, f, g, h, i. Supposons que la CHA a produit la suite de partitions suivante : - niveau 0 a b c d e f g h i - niveau 1 a b c d (e f) (g h) i - niveau 2 (a b d) c (e f) (g h) i - niveau 4 (a b d c) (e f g h) i - niveau 5 (a b c d e f g h i) Les variables qui caractérisent les individus sont, généralement, continues. Exemple : les âges, des salaires, des chiffres d’affaires, des volumes de ventes, etc.
L’utilisation de données ordinales est
également acceptée comme des indices de satisfaction (échelle de 1 à 7, par exemple). On voit qu'il ne faut pas confondre classification et classement. Dans un classement on affecte les objets à des groupes préétablis ; c'est le but de l'analyse discriminante que de fixer des règles pour déterminer la classe des objets. La classification est donc, en quelque sorte, le travail préliminaire au classement, savoir la recherche des classes "naturelles" dans le domaine étudié. Etant donné la faiblesse des bases théoriques de tous ces algorithmes usuels, il serait imprudent de se fier totalement aux résultats ainsi obtenus. C'est pourquoi nous recommandons vivement à l'utilisateur de toujours confronter ses résultats à ceux d'une analyse factorielle L'un des plus grands classificateurs a, sans aucun doute, été le savant suédois Linné qui, au 18-ème siècle, a établi une classification du monde vivant en général et du règne végétal en particulier, classification encore en vigueur aujourd'hui chez les spécialistes des sciences naturelles. La première moitié du 20-ème siècle a vu un certain nombre de tentatives pour rationaliser le processus mental utilisé par Linné. Mais ce n'est qu'à partir des années 1960, avec la diffusion de l'informatique en milieu universitaire, que sont apparus un grand nombre d'algorithmes