You are on page 1of 22

TI608-Introduction à l’apprentissage machine

Apprentissage non supervisée

Faten CHAKCHOUK
faten.chakchouk@efrei.fr

TI608 – Electif
Bilan ….

Algorithmes d’Apprentissage
Machine

Non Supervisés Supervisés

Clustering Régression

Kmeans
Clustering hiérarchique
Classification
Bilan ….

Algorithmes d’Apprentissage
Machine

Non Supervisés Supervisés

Clustering

Kmeans Régression

Clustering hiérarchique
Classification
Clustering
Partitionnement hiérarchique

Combien de clusters voyez-vous ?


3 clusters
4 clusters
5 clusters
Clustering
Partitionnement hiérarchique

Combien de clusters voyez-vous ?


3 clusters
4 clusters
5 clusters

La bonne réponse ?
Clustering
Partitionnement hiérarchique

3 clusters

4 clusters
Clustering
Partitionnement hiérarchique : comment ?

▷ Approche ascendante :
Regroupement Hiérarchique Ascendant (Agglomerative
Hierarchical Clustering) CHA
Principe: Initialement, chaque point est un cluster. On cherche
les deux clusters les plus proches, et on les fusionne en un seul
cluster. On répète cette étape jusqu'à ce que tous les points
soient regroupés en un seul cluster.
▷ Approche descendante :
Clustering divisif : CHD
Principe : Cluster initial regroupe tous les points, puis il sera
divisé successivement jusqu'à obtenir autant de clusters que de
points.
Clustering
Partitionnement hiérarchique : Représentation ?
▷ Dendrogramme :
Un cluster au sommet qui se divise petit à petit jusqu'à avoir
autant de clusters que de points.

5
2
1

0
4

3
▷ Axe des y : Hauteur ?
▷ Axe des x ?
Clustering
Partitionnement hiérarchique CHA
Clustering
Partitionnement hiérarchique : Algorithme CHA

Initialisation :
− Chaque individu correspond à un cluster
− Calcul de la matrice des distances M entre chaque couple de
clusters (ici les points)
Répéter
− Sélection des deux clusters les plus proches Ci et Cj
− Fusion de Ci et Cj en un cluster Cg
− Mise à jour de M en calculant la distance entre Cg et les
clusters existants
Jusqu'à la fusion des 2 derniers clusters

Définir la distance entre deux clusters ? Identifier les deux clusters à fusionner

Définir la distance entre deux points ? Métrique entre individus


Clustering
CHA - Distance entre clusters
Problème = trouver la distance L entre clusters la plus proche de la métrique
utilisée pour les individus (D ).

Saut minimal (single linkage) : La plus petite Saut maximal (complete linkage) : la plus
distance entre les deux observations grande distance entre deux observations
de clusters différents. Elle produit souvent des de clusters différents.
nuages allongés.
Clustering
CHA - Distance entre clusters
Problème = trouver la distance L entre clusters la plus proche de la métrique
utilisée pour les individus (D ).

Saut Moyen (Average linkage) : La moyenne Saut barycentrique (Centroid-linkage) : La


des distances entre les observations distance entre leur centre de gravité. Elle est
de clusters différents. Produit des classes de plus robuste aux points aberrants.
même variance

la métrique

L(r, s) = D(Gr,Gs)
Clustering
CHA - Distance entre clusters
Problème = trouver la distance L entre clusters la plus proche de la métrique
utilisée pour les individus (D ).

Saut Ward (Ward linkage) : la distance entre leur centre de gravité au carré, pondérée par
les effectifs des deux clusters. Minimiser l’inertie intra-classe.

la métrique

L(r, s) = (nr*ns)/(nr+ns) * D(Gr,Gs)2


Clustering
Partitionnement hiérarchique CHA
Clustering
CHA : Distance entre points
Distance euclidienne (norme 2) Distance de Manhattan (norme 1)

Rappel : Norme p

https://fr.wikipedia.org/wiki/Distance_de_Manhattan#/media/Fichier:Manhattan_distance.svg
Clustering
Partitionnement hiérarchique CHA

Exercice
On souhaite progressivement regrouper les 5 exemples suivants en utilisant
l’algorithme agglomératif CHA et la métrique de distance euclidienne
minimale :
M1(2,0), M2(0,1), M3(0,2), M4(3,4) et M5(5,4)

1. Présentez les étapes de cet algorithme tout en détaillant les calculs effectués.
2. Présentez le dendrogramme correspondant au résultat obtenu
Clustering
Partitionnement hiérarchique CHA
Exercice
On souhaite progressivement regrouper les 5 exemples suivants en utilisant
l’algorithme agglomérative CHA et la métrique de distance euclidienne
minimale :
M1(2,0), M2(0,1), M3(0,2), M4(3,4) et M5(5,4)

1. Présentez les étapes de cet algorithme tout en détaillant les calculs effectués.
2. Présentez le dendrogramme correspondant au résultat obtenu

d2 C1={M1} C2={M2} C3={M3} C4={M4} C5={M5}


M4(3,4) M5(5,4)
C1 0 5 8 17 25
C2 0 1 18 34
M3(0,2)
C3 0 13 29
C4 0 4
M2(0,1) C5 0
M1(2,0)
Clustering
Partitionnement hiérarchique CHA
d
Etape 1

C1 C2 C3 C4 C5

d2 C1={M1} C2={M2} C3={M3} C4={M4} C5={M5}


M4(3,4) M5(5,4)
C1 0 5 8 17 25
C2 0 1 18 34
M3(0,2)
C3 0 13 29
C4 0 4
M2(0,1) C5 0
M1(2,0)
Clustering
Partitionnement hiérarchique CHA
d
Etape 2

C1 C2 C3 C4 C5

M4 M5 d2 C1={M1} C23={M2,M3} C4={M4} C5={M5}

C1 0 5 17 25
C23 0 13 29
M3 C4 0 4
M2 C5 0

M1
Clustering
Partitionnement hiérarchique CHA
d
Etape 2
√13=3,6

C1 C2 C3 C4 C5

M4 M5 d2 C1={M1} C23={M2,M3} C45={M4, M5}

C1 0 5 17
C23 0 13
M3 C45 0
M2

M1
Clustering
Partitionnement hiérarchique CHA
d
Etape 2
√13=3,6

C1 C2 C3 C4 C5

M4 M5 d2 C123={M1, C45={M4, M5}


M2,M3 }
C123 0 13
C45 0
M3

M2

M1
Clustering
CHA : Exemple 2

Appliquer l’algorithme de clustering


hiérarchique agglomératif CHA avec la
métrique de distance euclidienne et le saut
de Ward :
1. Présentez les étapes de cet algorithme
tout en détaillant les calculs effectués.
2. Présentez le dendrogramme
correspondant au résultat obtenu

x1 x2
1 8 3
2 5 3
3 6 4
4 1 6
5 2 8

You might also like