Cours: Machine Learning: Semestre I: 3 CS

Université de Tunis-Elmanar
Institut Supérieur d’Informatique
Cours : Machine Learning

Semestre I : 3éme CS
Chapitre 3: Classification k-
moyennes
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Deux familles de méthodes
Méthodes Méthodes
Descriptives Prédictives
Arbres de Décisions
Analyse en
Composantes
Principales ACP
Analyse Discriminante
Méthodes des Centres

Mobiles Régression Linéaire
K-means
Régression Logistique
Classification
Ascendante
Hiérarchique
Réseaux de Neurones
Machine learning : 3éme CS 2

Objectif des techniques
descriptives
 visent à mettre en évidence des informations présentes mais cachées
par le grand volume des données
 il n’y a pas de variable « cible » à prédire
 projection du nuage de points sur un espace de dimension inférieure

pour obtenir une visualisation de l’ensemble des liaisons entre variables
et individus tout en minimisant la perte d’information (ACP)
 trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables
 détection d’associations entre des invidus

Objectif des techniques de
classification
 Distinguer des sous-ensembles (ou classes) distincts dans la population de départ.
 Regrouper les objets en groupes, classes, familles, segments, clusters, de sorte que :
 Tous deux objets d’un même groupe se ressemblent le plus.
 Tous deux objets de groupes différents se distinguent le plus.
 Le nombre de groupes est parfois fixé.
 la classification se distingue du classement par le fait que les critères de classification ne sont pas connus a
priori (avant étude de la population). C’est la population qui détermine les critères.
 La classification est le plus souvent un préalable à d’autres opérations de data mining.
 La classification permet de limiter le nombre de variables par sous-ensemble.
 La classification permet de rechercher des corrélations propres à chaque classe et donc plus précises.
 il n’existe pas une solution unique au problème de la classification. Autrement dit, il n’y a pas « LA » bonne
classification, mais plusieurs classifications possibles.
 visent à synthétiser des informations présentes complexes mais cachées par le volume des données
 il n’y a pas de variable « cible » à prédire

Classification

Exemple d’application de la
classification
 L’intérêt de la classification en marketing est de définir les profils de client.
 Chaque classe « résume » une clientèle ce qui permet une communication

spécifique, « one-to-one ».
 Les classes permettent de se constituer un échantillon représentatif permanent

de personnes ou de classes de personnes que l'on interroge régulièrement
 Text mining : textes proches, dossiers automatiques.
 Web mining : pages web proches
 BioInformatique : génes ressemblants

Plan du chapitre
1. Position du probléme
2. Présentation kmeans

Formalisation
Datamining : 2éme IDL 8

Types de Classification
 Par partitionnement : Deux classes sont toujours disjointes.
• Principe : partitionnement des objets et évaluation des partitions.
 Hiérarchiques : Deux classes sont disjointes ou l’une contient l’autre.
• Principe : décomposition hiérarchique d’ensembles d’objets.
 Par Densité :
• Principe : se base sur une fonction de densité ou de connectivité

Classification par
partitionnement

Classification hiérarchique

Distance

Distance intra classe

Distance inter classe

Présentation kmeans
 L’algorithme des K-moyennes est un algorithme qui permet de trouver

des classes dans des données.
 les classes qu’il construit n’entretiennent jamais de relations

hiérarchiques : une classe n’est jamais incluse dans une autre classe
 L’algorithme fonctionne en précisant le nombre de classes attendues.
 L’algorithme calcule la distance intra-classe. Il travaille donc sur des

variables continues.

Algorithme
Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
• Choisir aléatoirement les centres des groupes
• REPETER
i. Affecter chaque cas au groupe dont il est le plus proche au
son centre (utiliser une distance adéquate)
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres)
OU (nombre d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN

Algorithme

Caractérisation de la partition

Stabilisation de l’inertir
• Inertie totale Itot : somme de l’inertie intraclasse IA et de l’inertie

interclasse IC
• Itot= I + Ic A
• Inertie intraclasse IA : somme des inerties totales de chaque classe
• Inertie interclasse Ic : moyenne (pondérée par la somme des poids de chaque classe) des
carrés des distances des barycentres de chaque classe au barycentre global
• Comment obtenir une bonne partition ?

• Minimisation de l’inertie intra-cluster et maximisation
de l’inertie inter-cluster.
Simulation
3
Choisir
Le nombre de
classes
X
Simulation
k1
Y
k2
Choisir3
Centres de
classes
(au hasard)
k3
X
Simulation
k1
Y
k2
Affecter chaque
point à la classe
dont le centre est
le plus proche
k3
X
Simulation
k1 k1
Y
k2
Recalculer les centres
des classes. Déplacer k3
chaque centre de k2
classe vers la
moyenne de chaque
classe k3
X
Simulation
k1
Y
Recalculer
l’appartenance des k3
individus aux classes k2
en calculant les
distances avec les
centres
X
Simulation
k1
Y
k3
Réaffecter les points k2
qui sont plus proches
du centre d'une autre
classe
X
Simulation
k1
Y
les trois points

qui changent de k3
classe k2
X
Simulation
k1
Y
k3
k2
Re-calculer les
centres des classes
X
Simulation
k1
Y
Déplacer les
centres des classes
vers les moyennes. k2
On s’arrête à la
stabilisation des k3
centres
X
Illustration
 Soit le tableau1 de 7 individus
caractérisés par 2 variables. Tab.1
 On souhaite construire deux groupes
homogènes à partir de ces individus.
 On propose de commencer
la construction à partir des deux
groupes du tableau 2.
Continuer la construction des groupes Tab.1
en utilisant la distance euclidienne
pour mesurer la similarité entre
individus.
d(i,j)= (|xi1 xj1|2 +|xi2 xj2 |2 +...+|xipxjp|2 )

Tab.2
Illustration
caractérisés par 2 variables. Tab.1
Continuer la construction des groupes
individus.

Illustration
caractérisés par 2 variables.
Continuer la construction des groupes
individus.

Etude de cas
Etudier la qualité des résultats de K-means dans la construction
de groupes de fleurs selon leurs caractéristiques.

Kmeans sur iris
K-means clustering avec R :
Appliquer K-means avec K=3 :

Kmeans sur iris
Comparer les résultats de K-means avec la classification réelle :
Taux d’erreur
1/ 0%
2/ 4%
3/ 28 %
Taux d’erreur total est à l’ordre de 11%
Représentation les groupes en 2 dimensions :
34
Limitations
 Sensibilité à la partition initiale :
V2
V1
 Centres des classes choisis aléatoirement influe sur la partition

finale
 Détermination du nombre final de classes : Etude sur le terrain

Avantages et inconvénients

Cours: Machine Learning: Semestre I: 3 CS

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours: Machine Learning: Semestre I: 3 CS

Uploaded by

Copyright:

Available Formats

Université de Tunis-Elmanar

Institut Supérieur d’Informatique

Cours : Machine Learning

Méthodes des Centres

Machine learning : 3éme CS 2

 projection du nuage de points sur un espace de dimension inférieure

 détection d’associations entre des invidus

Machine learning : 3éme CS 3

Machine learning : 3éme CS 4

Machine learning : 3éme CS 5

 Chaque classe « résume » une clientèle ce qui permet une communication

 Les classes permettent de se constituer un échantillon représentatif permanent

 Text mining : textes proches, dossiers automatiques.

 Web mining : pages web proches

 BioInformatique : génes ressemblants

Machine learning : 3éme CS 6

Machine learning : 3éme CS 7

Datamining : 2éme IDL 8

 Par partitionnement : Deux classes sont toujours disjointes.

• Principe : partitionnement des objets et évaluation des partitions.

 Hiérarchiques : Deux classes sont disjointes ou l’une contient l’autre.

• Principe : décomposition hiérarchique d’ensembles d’objets.

• Principe : se base sur une fonction de densité ou de connectivité

Machine learning : 3éme CS 9

Machine learning : 3éme CS 10

Machine learning : 3éme CS 11

Machine learning : 3éme CS 12

Machine learning : 3éme CS 13

Machine learning : 3éme CS 14

 L’algorithme des K-moyennes est un algorithme qui permet de trouver

 les classes qu’il construit n’entretiennent jamais de relations

 L’algorithme fonctionne en précisant le nombre de classes attendues.

 L’algorithme calcule la distance intra-classe. Il travaille donc sur des

Machine learning : 3éme CS 15

Machine learning : 3éme CS 16

Machine learning : 3éme CS 17

Machine learning : 3éme CS 18

• Inertie totale Itot : somme de l’inertie intraclasse IA et de l’inertie

• Inertie intraclasse IA : somme des inerties totales de chaque classe

• Comment obtenir une bonne partition ?

les trois points

d(i,j)= (|xi1 xj1|2 +|xi2 xj2 |2 +...+|xipxjp|2 )

d(i,j)= (|xi1 xj1|2 +|xi2 xj2 |2 +...+|xipxjp|2 )

Machine learning : 3éme CS 30

d(i,j)= (|xi1 xj1|2 +|xi2 xj2 |2 +...+|xipxjp|2 )

Machine learning : 3éme CS 31

Machine learning : 3éme CS 32

Appliquer K-means avec K=3 :

 Centres des classes choisis aléatoirement influe sur la partition

Machine learning : 3éme CS 35

Machine learning : 3éme CS 36

You might also like