Professional Documents
Culture Documents
Chp3 Les Techniques de Clustering
Chp3 Les Techniques de Clustering
CHAPITRE 3: APPRENTISSAGE
NON SUPERVISÉ
TECHNIQUES DE
CLUSTERING
Introduction
Types de variables
Principales approches du clustering
Méthodes par partitionnement
Méthodes hiérarchiques
Cluster 1
Cluster 3
Cluster 2
Segmentation
des marchés
Marketing Divers
domaines
Mesure de similarité
Plus la mesure est grande, plus les éléments sont similaires
Mesure de dissimilarité
0
Matrice de similarité D(2,1) 0
D(3,1 ) D (3, 2 ) 0
: : :
D ( m ,1) D ( m , 2 ) ... ... 0
Distance Euclidienne
D(X, Y) = [(x1-y1)2 + (x2-y2)2+…+(xn-yn)2]1/2
Distance de Minkowski
D(X, Y) = [(x1-y1)q + (x2-y2)q+…+(xn-yn)q]1/q q>0
Distance de Manhatten
D(X, Y) = |x1-y1| + |x2-y2|+…+|xn-yn|
xi min xi
x' i
max xi min xi
Age Nombre Enfants Salaire Age Nombre Enfants Salaire
P1 40 2 1000 P1 0.125 0.333 0.818
P2 75 4 600 P2 1 1 0.09
P3 50 3 1100 P3 0.375 0.666 1
P4 35 1 550 P4 0 0 0
Distance Euclidienne
D(P1, P2) = ((-0.875)2 + (-0.667)2 + (0.728)2)1/2 = 1.319
D(P1, P3) = ((-0.25)2 + (-0.333)2 + (-0.182)2)1/2 = 0.454
D(P1, P4) = ((0.125)2 + (0.333)2 + (0.818)2)1/2 = 0.891
P1 est plus proche de P3 que de P2 et P4
Distance de Manhatten
D(P1, P2) = |-0.875| + |-0.667| + |0.728| = 2.27
D(P1, P3) = |-0.25| + |-0.333| + |-0.182| = 0.765
D(P1, P4) = |0.125| + |0.333| + |0.818| = 1.276
Zied Elouedi
Zied Elouedi P1 est plus proche2008/2009
de P3 que de P2 et P4
2008/2009
Variables binaires
Table de contingence
Oj
1 0
1 a b a b
a = nombre de positions
Oi où i est à 1 et j est à 1
0 c d cd
ac bd p
Cluster
Approches:
D(6,M2)<D(6,M3)
6 passe au cluster C2: les autres objets restent dans
leurs clusters.
0n aura:
C1={2}, M1=2,
C2={4, 6}, M2= 10/2 = 5
C3={7, 8, 11, 13}, M3= 39/4 = 9.75
C1 C2 C3
7 8
2 4
6 11 13
D(7,M2)<D(7,M3)
7 passe au cluster C2: les autres objets restent dans
leurs clusters.
0n aura:
C1={2}, M1=2,
C2={4, 6, 7}, M2=17/3 = 5.66,
C3={8, 11, 13}, M3= 32/3 = 10.66
C1 C2 C3
8
2 4
7
6 11 13
D(8,M2)<D(8,M3)
8 passe au cluster C2: les autres objets restent dans
leurs clusters.
0n aura:
C1={2}, M1=2,
C2={4, 6, 7, 8}, M2=25/4 = 6.25,
C3={11, 13}, M3= 24/2 = 12
C1 C2 C3
4
2 11
7 8
6 13
D(4,M1)<D(4,M2)
4 passe au cluster C1: les autres objets restent dans
leurs clusters.
0n aura:
C1={2, 4}, M1=3,
C2={6, 7, 8}, M2=21/3 = 7,
C3={11, 13}, M3= 24/2 = 12
C1 C2 C3
2 11
7 8
4 6 13
Zied Elouedi
La partition est stable.
2008/2009
2008/2009
Zied Elouedi
Attention !!
K-moyenne est appelée aussi méthode des centres mobiles.
Si on a plusieurs attributs
Nécessité de normaliser les échelles des différents attributs.
.
.
C1 C2 C3
O1 O2
O3 O8
O5 O7
O6 O4
Zied Elouedi 2008/2009
Zied Elouedi 2008/2009
Exemple: k-modes
27
Recalcul des dissimilarités des objets Les objets n’ont pas changé de clusters.
CORE = { Corej, 1 j p }
Corej : l’ensemble des objets du cluster Kj’ qui sont plus
proches de son centre que des autres centres des
différents clusters (après extension).
Partition Initiale
les objets sont
correctement classés
Distances minimales
A vérifier après extension
Pour chaque objet, la valeur du nouvel attribut
(m+1)
Supérieure ou égale à celle du centre de son
cluster l’objet est correctement classé ,
appartient au core de ce cluster.
Sinon comparer ses différentes distances par
rapport aux différents centres de tous les
clusters.
Zied Elouedi 2008/2009
Zied Elouedi 2008/2009
K-means Incrémentale (CBIC) (4)
Algorithme (1/2)
34
Entrées:
n objets avec m attributs
n objets avec m+1 attributs
dE la distance euclidienne
p nombre des clusters à former
F la partition antérieure (initiale)
Nombre maximum d’itérations
Sorties:
F’ la partition des n objets après extension (m+1 attributs)
Début
pour chaque cluster Fj de F
calculer Corej
Fj’ Corej
mettre à jour les centres fj’ des cores
fin pour
tant que F’ change et max itérations n’est pas atteint faire
pour tout Fj’ faire
Fj’ oi’, les plus proches
fin pour
pour tout Fj’ faire
calculer le centre
fin pour
fin tant que
Zied Elouedi 2008/2009
Zied Elouedi 2008/2009
Exemple (1)
36
O1 et O2
O2 75 4 600
O3 50 3 1100
Partition initiale (CBIC):
O4 35 1 550
F1 = (O1, O3, O4); f1 = (41,67; 2)
F2 = (O2) ; f2 = (75; 4)
Avec l’arrivée du nouvel attribut :
f1’=(41,67; 2; 883,34)
f2’=(75; 4; 600)
Pour F1:
1000 883,34
Core1 = (O1, O3)
1100 883,34
Par contre 550 883,34
Pour F2:
Core2 = (O2)
600 600
Calculer les distances de chaque objet des deux centres f1’ et f2’
pour les affecter :
O1, O3 F1’ f1’ = (45; 2,5; 1050)
O2, O4 F2’ f2’ = (55; 2,5; 575)
Belief k-modes.
.
.
Zied Elouedi
Zied Elouedi
. 2008/2009
2008/2009
Bibliographie
40
N. R. Pal, J. C. Bezdek, ”On cluster validity for the fuzzy c-means model”,
IEEE Transactions on Fuzzy Systems 3, 370-379, 1995.