Professional Documents
Culture Documents
CM3 Clusetring CHA
CM3 Clusetring CHA
Faten CHAKCHOUK
faten.chakchouk@efrei.fr
TI608 – Electif
Bilan ….
Algorithmes d’Apprentissage
Machine
Clustering Régression
Kmeans
Clustering hiérarchique
Classification
Bilan ….
Algorithmes d’Apprentissage
Machine
Clustering
Kmeans Régression
Clustering hiérarchique
Classification
Clustering
Partitionnement hiérarchique
La bonne réponse ?
Clustering
Partitionnement hiérarchique
3 clusters
4 clusters
Clustering
Partitionnement hiérarchique : comment ?
▷ Approche ascendante :
Regroupement Hiérarchique Ascendant (Agglomerative
Hierarchical Clustering) CHA
Principe: Initialement, chaque point est un cluster. On cherche
les deux clusters les plus proches, et on les fusionne en un seul
cluster. On répète cette étape jusqu'à ce que tous les points
soient regroupés en un seul cluster.
▷ Approche descendante :
Clustering divisif : CHD
Principe : Cluster initial regroupe tous les points, puis il sera
divisé successivement jusqu'à obtenir autant de clusters que de
points.
Clustering
Partitionnement hiérarchique : Représentation ?
▷ Dendrogramme :
Un cluster au sommet qui se divise petit à petit jusqu'à avoir
autant de clusters que de points.
5
2
1
0
4
3
▷ Axe des y : Hauteur ?
▷ Axe des x ?
Clustering
Partitionnement hiérarchique CHA
Clustering
Partitionnement hiérarchique : Algorithme CHA
Initialisation :
− Chaque individu correspond à un cluster
− Calcul de la matrice des distances M entre chaque couple de
clusters (ici les points)
Répéter
− Sélection des deux clusters les plus proches Ci et Cj
− Fusion de Ci et Cj en un cluster Cg
− Mise à jour de M en calculant la distance entre Cg et les
clusters existants
Jusqu'à la fusion des 2 derniers clusters
Définir la distance entre deux clusters ? Identifier les deux clusters à fusionner
Saut minimal (single linkage) : La plus petite Saut maximal (complete linkage) : la plus
distance entre les deux observations grande distance entre deux observations
de clusters différents. Elle produit souvent des de clusters différents.
nuages allongés.
Clustering
CHA - Distance entre clusters
Problème = trouver la distance L entre clusters la plus proche de la métrique
utilisée pour les individus (D ).
la métrique
L(r, s) = D(Gr,Gs)
Clustering
CHA - Distance entre clusters
Problème = trouver la distance L entre clusters la plus proche de la métrique
utilisée pour les individus (D ).
Saut Ward (Ward linkage) : la distance entre leur centre de gravité au carré, pondérée par
les effectifs des deux clusters. Minimiser l’inertie intra-classe.
la métrique
Rappel : Norme p
https://fr.wikipedia.org/wiki/Distance_de_Manhattan#/media/Fichier:Manhattan_distance.svg
Clustering
Partitionnement hiérarchique CHA
Exercice
On souhaite progressivement regrouper les 5 exemples suivants en utilisant
l’algorithme agglomératif CHA et la métrique de distance euclidienne
minimale :
M1(2,0), M2(0,1), M3(0,2), M4(3,4) et M5(5,4)
1. Présentez les étapes de cet algorithme tout en détaillant les calculs effectués.
2. Présentez le dendrogramme correspondant au résultat obtenu
Clustering
Partitionnement hiérarchique CHA
Exercice
On souhaite progressivement regrouper les 5 exemples suivants en utilisant
l’algorithme agglomérative CHA et la métrique de distance euclidienne
minimale :
M1(2,0), M2(0,1), M3(0,2), M4(3,4) et M5(5,4)
1. Présentez les étapes de cet algorithme tout en détaillant les calculs effectués.
2. Présentez le dendrogramme correspondant au résultat obtenu
C1 C2 C3 C4 C5
C1 C2 C3 C4 C5
C1 0 5 17 25
C23 0 13 29
M3 C4 0 4
M2 C5 0
M1
Clustering
Partitionnement hiérarchique CHA
d
Etape 2
√13=3,6
C1 C2 C3 C4 C5
C1 0 5 17
C23 0 13
M3 C45 0
M2
M1
Clustering
Partitionnement hiérarchique CHA
d
Etape 2
√13=3,6
C1 C2 C3 C4 C5
M2
M1
Clustering
CHA : Exemple 2
x1 x2
1 8 3
2 5 3
3 6 4
4 1 6
5 2 8