You are on page 1of 36

Université de Tunis-Elmanar

Institut Supérieur d’Informatique

Cours : Machine Learning


Semestre I : 3éme CS

Chapitre 3: Classification k-
moyennes
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Deux familles de méthodes

Méthodes Méthodes
Descriptives Prédictives
Arbres de Décisions

Analyse en
Composantes
Principales ACP
Analyse Discriminante

Méthodes des Centres


Mobiles Régression Linéaire
K-means

Régression Logistique
Classification
Ascendante
Hiérarchique
Réseaux de Neurones

Machine learning : 3éme CS 2


Objectif des techniques
descriptives
 visent à mettre en évidence des informations présentes mais cachées
par le grand volume des données
 il n’y a pas de variable « cible » à prédire

 projection du nuage de points sur un espace de dimension inférieure


pour obtenir une visualisation de l’ensemble des liaisons entre variables
et individus tout en minimisant la perte d’information (ACP)
 trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables

 détection d’associations entre des invidus

Machine learning : 3éme CS 3


Objectif des techniques de
classification
 Distinguer des sous-ensembles (ou classes) distincts dans la population de départ.
 Regrouper les objets en groupes, classes, familles, segments, clusters, de sorte que :
 Tous deux objets d’un même groupe se ressemblent le plus.
 Tous deux objets de groupes différents se distinguent le plus.
 Le nombre de groupes est parfois fixé.
 la classification se distingue du classement par le fait que les critères de classification ne sont pas connus a
priori (avant étude de la population). C’est la population qui détermine les critères.
 La classification est le plus souvent un préalable à d’autres opérations de data mining.
 La classification permet de limiter le nombre de variables par sous-ensemble.
 La classification permet de rechercher des corrélations propres à chaque classe et donc plus précises.
 il n’existe pas une solution unique au problème de la classification. Autrement dit, il n’y a pas « LA » bonne
classification, mais plusieurs classifications possibles.
 visent à synthétiser des informations présentes complexes mais cachées par le volume des données
 il n’y a pas de variable « cible » à prédire

Machine learning : 3éme CS 4


Classification

Machine learning : 3éme CS 5


Exemple d’application de la
classification
 L’intérêt de la classification en marketing est de définir les profils de client.

 Chaque classe « résume » une clientèle ce qui permet une communication


spécifique, « one-to-one ».

 Les classes permettent de se constituer un échantillon représentatif permanent


de personnes ou de classes de personnes que l'on interroge régulièrement

 Text mining : textes proches, dossiers automatiques.

 Web mining : pages web proches

 BioInformatique : génes ressemblants

Machine learning : 3éme CS 6


Plan du chapitre

1. Position du probléme
2. Présentation kmeans

Machine learning : 3éme CS 7


Formalisation

Datamining : 2éme IDL 8


Types de Classification

 Par partitionnement : Deux classes sont toujours disjointes.

• Principe : partitionnement des objets et évaluation des partitions.

 Hiérarchiques : Deux classes sont disjointes ou l’une contient l’autre.

• Principe : décomposition hiérarchique d’ensembles d’objets.

 Par Densité :

• Principe : se base sur une fonction de densité ou de connectivité

Machine learning : 3éme CS 9


Classification par
partitionnement

Machine learning : 3éme CS 10


Classification hiérarchique

Machine learning : 3éme CS 11


Distance

Machine learning : 3éme CS 12


Distance intra classe

Machine learning : 3éme CS 13


Distance inter classe

Machine learning : 3éme CS 14


Présentation kmeans

 L’algorithme des K-moyennes est un algorithme qui permet de trouver


des classes dans des données.

 les classes qu’il construit n’entretiennent jamais de relations


hiérarchiques : une classe n’est jamais incluse dans une autre classe

 L’algorithme fonctionne en précisant le nombre de classes attendues.

 L’algorithme calcule la distance intra-classe. Il travaille donc sur des


variables continues.

Machine learning : 3éme CS 15


Algorithme
Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
• Choisir aléatoirement les centres des groupes
• REPETER
i. Affecter chaque cas au groupe dont il est le plus proche au
son centre (utiliser une distance adéquate)
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres)
OU (nombre d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN

Machine learning : 3éme CS 16


Algorithme

Machine learning : 3éme CS 17


Caractérisation de la partition

Machine learning : 3éme CS 18


Stabilisation de l’inertir

• Inertie totale Itot : somme de l’inertie intraclasse IA et de l’inertie


interclasse IC

• Itot= I + Ic A

• Inertie intraclasse IA : somme des inerties totales de chaque classe

• Inertie interclasse Ic : moyenne (pondérée par la somme des poids de chaque classe) des
carrés des distances des barycentres de chaque classe au barycentre global

• Comment obtenir une bonne partition ?


• Minimisation de l’inertie intra-cluster et maximisation
de l’inertie inter-cluster.
Machine learning : 3éme CS 19
Simulation

3
Choisir
Le nombre de
classes

X
Machine learning : 3éme CS 20
Simulation

k1
Y

k2
Choisir3
Centres de
classes
(au hasard)
k3

X
Machine learning : 3éme CS 21
Simulation

k1
Y

k2

Affecter chaque
point à la classe
dont le centre est
le plus proche
k3
X
Machine learning : 3éme CS 22
Simulation

k1 k1
Y

k2
Recalculer les centres
des classes. Déplacer k3
chaque centre de k2
classe vers la
moyenne de chaque
classe k3

X
Machine learning : 3éme CS 23
Simulation

k1
Y

Recalculer
l’appartenance des k3
individus aux classes k2
en calculant les
distances avec les
centres

X
Machine learning : 3éme CS 24
Simulation

k1
Y

k3
Réaffecter les points k2
qui sont plus proches
du centre d'une autre
classe

X
Machine learning : 3éme CS 25
Simulation

k1
Y

les trois points


qui changent de k3
classe k2

X
Machine learning : 3éme CS 26
Simulation

k1
Y

k3
k2
Re-calculer les
centres des classes

X
Machine learning : 3éme CS 27
Simulation

k1
Y

Déplacer les
centres des classes
vers les moyennes. k2
On s’arrête à la
stabilisation des k3
centres

X
Machine learning : 3éme CS 28
Illustration
 Soit le tableau1 de 7 individus
caractérisés par 2 variables. Tab.1
 On souhaite construire deux groupes
homogènes à partir de ces individus.
 On propose de commencer
la construction à partir des deux
groupes du tableau 2.
Continuer la construction des groupes Tab.1
en utilisant la distance euclidienne
pour mesurer la similarité entre
individus.

d(i,j)= (|xi1 xj1|2 +|xi2 xj2 |2 +...+|xipxjp|2 )


Tab.2
Machine learning : 3éme CS 29
Illustration
 Soit le tableau1 de 7 individus
caractérisés par 2 variables. Tab.1
 On souhaite construire deux groupes
homogènes à partir de ces individus.
 On propose de commencer
la construction à partir des deux
groupes du tableau 2.
Continuer la construction des groupes
en utilisant la distance euclidienne
pour mesurer la similarité entre
individus.

d(i,j)= (|xi1 xj1|2 +|xi2 xj2 |2 +...+|xipxjp|2 )

Machine learning : 3éme CS 30


Illustration
 Soit le tableau1 de 7 individus
caractérisés par 2 variables.
 On souhaite construire deux groupes
homogènes à partir de ces individus.
 On propose de commencer
la construction à partir des deux
groupes du tableau 2.
Continuer la construction des groupes
en utilisant la distance euclidienne
pour mesurer la similarité entre
individus.

d(i,j)= (|xi1 xj1|2 +|xi2 xj2 |2 +...+|xipxjp|2 )

Machine learning : 3éme CS 31


Etude de cas
Etudier la qualité des résultats de K-means dans la construction
de groupes de fleurs selon leurs caractéristiques.

Machine learning : 3éme CS 32


Kmeans sur iris
K-means clustering avec R :

Appliquer K-means avec K=3 :


Kmeans sur iris
Comparer les résultats de K-means avec la classification réelle :
Taux d’erreur
1/ 0%
2/ 4%
3/ 28 %
Taux d’erreur total est à l’ordre de 11%
Représentation les groupes en 2 dimensions :

34
Limitations
 Sensibilité à la partition initiale :
V2
V1

 Centres des classes choisis aléatoirement influe sur la partition


finale
 Détermination du nombre final de classes : Etude sur le terrain

Machine learning : 3éme CS 35


Avantages et inconvénients

Machine learning : 3éme CS 36

You might also like