You are on page 1of 61

DATA MINING

Introduction Générale
Pr. Aziz LAZRAQ
Ecole Nationale
Supérieure des Mines
Rabat

A.LAZRAQ 1

INFORMATIQUE

Opérationnelle Décisionnelle
(De production) (Stratégique)

A.LAZRAQ 2

Aziz LAZRAQ 1
Informatique opérationnelle (de production):
Automatisation des tâches répétitives:
paie,
gestion de stock,
comptabilité,
gestion de commandes, etc.

Informatique décisionnelle (stratégique):


Extraction de connaissances à partir des BD,
visualisation de données multidimensionnelles,
modélisation,
prédiction, etc.

A.LAZRAQ 3

Data Warehouse
(entrepôt de données)
Ensemble de données historisées et orientées sujet

Data
Warehouse

Extraction de
connaissances (data
Mining
A.LAZRAQ 4

Aziz LAZRAQ 2
Data warehouse : définition
Entrepôt de données
Ensemble de données historisées avec leur variation
dans le temps, organisé par sujets, consolidé dans
une base de données unique, géré dans un
environnement de stockage particulier, aidant à la
prise de décision dans l’entreprise.
Trois fonctions essentielles :
collecte de données de bases existantes et
chargement
gestion des données dans l’entrepôt
analyse de données pour la prise de décision
A.LAZRAQ 5

Architecture type

A.LAZRAQ 6

Aziz LAZRAQ 3
1. OLTP et OLAP
Rapports
&
Appli. Analyses
Appli.
Appli.
OLAP

DW
ETL
OLTP

DM Aides à
la décision
A.LAZRAQ 7

LE DATA MINING
Au confluent de la statistique et de
l’informatique décisionnelle.
Présenté par le Massachusetts
Institute of Technology (MIT/USA)
comme l’une des dix technologies
émergentes qui changeront le monde
au 21° siècle (Le futur en dix
technologies(2003)).

A.LAZRAQ 8

Aziz LAZRAQ 4
Définition :Le DATA MINING
C’est l’application des
technologies d’analyse des
données et d’intelligence
artificielle à l’exploration et à
l’analyse de grandes bases de
données, en vue d’en extraire
des informations pertinentes
pour l’entreprise et de les utiliser
en particulier dans les systèmes
d’aide à la décision
A.LAZRAQ 9

Data Mining
Autres appellations et définitions
KDDB:Knowledge Discovery in Database:
Découvertes de connaissances dans les bases
de données.
L’extraction d’informations,auparavant
inconnues, potentiellement utiles à partir de
données.
La découverte de nouvelles corrélations,
tendances et modèles par le tamisage d’un
large volume de données.
Torturer l’information disponible jusqu’ à ce
qu’elle avoue.
A.LAZRAQ 10

Aziz LAZRAQ 5
Plusieurs sources de données

Types
-Structuré
-Non structuré
Texte
Image
Vidéo
Audio …

A.LAZRAQ 11

Data Mining et Big Data

Les big data, « données massives», désignent des


ensembles de données qui deviennent tellement
volumineux qu'ils en deviennent difficiles à travailler
avec des outils classiques de gestion de base de
données ou de gestion. de l'information.

Idée maitresse :
Distribuer les données et paralléliser les
traitements sur plusieurs processeurs

A.LAZRAQ 12

Aziz LAZRAQ 6
Caractéristiques du Big Data
3V
Volume – Variété – Vélocité

Il y a de nouvelles sources de données, de


nouveau contenu ; Y compris les sources
externes à l’entreprise.

A.LAZRAQ 13

Nouvelle formation
Data Science: Profil
Data science – A la croisée de 3 profils :

STATISTICIEN DATA MINER


Connaître et comprendre les techniques de modélisation, d’analyse de
données, d’inférence… savoir exploiter les régularités « cachées » dans
les données, pourvoyeuses de connaissances.

INFORMATICIEN
Maîtriser les outils pour manipuler les données, concevoir de nouveaux
algorithmes, développer des stratégies nouvelles pour gérer la
profusion de l’information (outils:Hadoop, MapReduce,…)

CONNAISSANCES METIER
Toute analyse s’inscrit dans un domaine… qu’il faut connaître pour
savoir se posser les bonnes questions , décoder et exploiter les
résultats
A.LAZRAQ 14

Aziz LAZRAQ 7
Le data Scientist, la perle rare
Le data scientist est quelqu’un qui
sait mieux développer qu’un statisticien
et qui connaît mieux les statistiques
qu’un développeur

Michael O’Connell, Chief Data Scientist chez


TIBCO Jaspersoft

A.LAZRAQ 15

Facteurs d’émergence du DM
Production massive des données.
Grande capacité de stockage.
Processeurs plus puissants.
Contexte très concurrentiel.
Disponibilité de logiciels de DM.

A.LAZRAQ 16

Aziz LAZRAQ 8
Positionnement du DW et du
DM
Data Warehouse

Données Méthodes du DM

Observer
Et comparer
Résultats
Prédire et agir
A.LAZRAQ 17

Systèmes décisionnels
Les moteurs des bases de données (Oracle,
Informix , SqlServer, Ingres,…)
pour le stockage et la structuration des
données
Les outils de requêtes (pour l’interrogation
des données et le reporting
Les outils OLAP (SAS MDDB,SPSS,Cognos…)
Les outils de data mining pour l’extraction de
connaissances cachées dans les données

A.LAZRAQ 18

Aziz LAZRAQ 9
Systèmes décisionnels :suite

A.LAZRAQ 19

DATA MINING
Deux familles de méthodes
méthodes::
– Méthodes d’apprentissage supervisé (classement/prévision),
caractérisées par l’existence d’une variable privilégiée à
prédire: Réseaux de neurones , arbres de décisions, régression
logistique, régression linéaire, analyse discriminante.

– Méthodes d’apprentissage non supervisé (ou descriptives)


où il n’existe pas de variable privilégiée à prédire comme:
ACP, AFC, AFCM, classification automatique.
Deux phases pour les méthodes d’apprentissage supervisé :
– Phase d’apprentissage: permettant de développer les règles
d’identification de la variable privilégiée à partir d’un
échantillon d’apprentissage,
– Phase prédictive : utiliser ces règles pour identifier cette
variable pour de nouveaux exemples (retrouver les classes des
exemples inconnus). A.LAZRAQ 20

Aziz LAZRAQ 10
Utilisation des données dans les méthodes
d’apprentissage supervisé

A.LAZRAQ 21

Quelques applications du Data


Mining
Gestion de la relation client (CRM:Customer
Relationship Management)
Analyse du panier de la ménagère dans la
distribution(produits achetés ensembles)
Le scoring dans les banques et les sociétés de
crédit (attribuer un score à chaque client pour
identifier les clients à risque),
Segmentation de la clientèles en plusieurs
segments homogènes pour un ciblage mailing.
A.LAZRAQ 22

Aziz LAZRAQ 11
Applications du Data Mining
Visualisation de données
multidimensionnelle
Banque, industrie, médecine, enseignement,
etc.
Aide au diagnostic :
Étude de Maladie: identifier les causes
Étude de pannes: identifier les causes
Détection des fraudes : cartes de crédit

A.LAZRAQ 23

Related Fields

Machine Visualization
Learning
Data Mining and
Knowledge Discovery

Statistics Databases

A.LAZRAQ 24

Aziz LAZRAQ 12
Exemple
Description Clientèle En
Télécoms
Durée Nb
Client
C1
com/mois
35
Appel/mois Nb Appelés/mois Courrier Vocal Nb Contact
55 41 Non 16
in
C2 9 170 25 NON 14 di
C3
C4
7
12
210
215
45
5
OUI
NON
3
17
vi
C5 31 477 38 NON 28 du
C6
C7
42
11
314
110
37
10
OUI
OUI
37
20
s

Attributs ou variables

A.LAZRAQ 25

Objectifs
Constituer des groupes de clients (segments)
de profils de consommation similaires
-Classification( Clustering), Analyse factorielle
Extraire les attributs caractérisant au mieux
ces groupes
-Analyse des corrélations, analyse
factorielle, choix de variables
Analyser les liens entre les variables
-Analyse des corrélations , analyse
d’associations

A.LAZRAQ 26

Aziz LAZRAQ 13
Objectifs… Suite
Identifier le groupe d’appartenance d’un
client
-Classement, affectation
Extraire des règles de décision portant sur
le bon ou mauvais potentiel d’un client
-Segmentation, Arbre de décision
Prédire le comportement d’un client
-Réseaux neuronaux, régression,…

A.LAZRAQ 27

Analyse factorielle
Méthodes de visualisation

Les méthodes d’analyse factorielle opèrent sur des


nuages de points multidimensionnels dont on
cherche à trouver des directions d ’allongement
maximal « axes factoriels » pour pouvoir les
visualiser en un espace de dimension plus petite (2
en général)
A.LAZRAQ 28

Aziz LAZRAQ 14
Classification hiérarchique directe
Classification automatique:typologie
CA5

EM5

CA4

CA3

CA2

MA5

EM4

MA4

EM2

EM3

MA3

MA2

Les méthodes de classification automatique opèrent sur


des ensembles d’individus qu’on cherche à regrouper
en plusieurs catégories jugées homogènes vis-à-vis d’un
certain critère fixé à l’avance.

A.LAZRAQ 29

Méthodes Factorielles
Pour visualiser des données
multidimensionnelles
Analyse en composantes
principales (ACP)
Analyse des correspondances
Analyse factorielle discriminante
etc.

A.LAZRAQ 30

Aziz LAZRAQ 15
Analyse en composantes
principales(ACP)
Type de données

Variables X1 (.) … Xj(.) … Xp(.)


Individus
1 X1 ( 1 ) … Xj( 1 ) … Xp( 1 )
… … … … … …
i X1 ( i ) … Xj( i ) … Xp( i )
… … … … …
n X1 ( n ) … Xj( n ) … Xp( n )

Xj(i) est une variable quantitative mesurée sur l’individu i.


Chaque individu peut être représenté par un point de l’espace Rp.
A.LAZRAQ 31

Exemple d’un tableau de l’ACP


Individus X1(.):Taille(cm) X2(.):Poids(Kg) X3(.):capPulm(l)
1 177,35 72,35 2,69

2 152 68 3,9

3 164 80 3,4

4 176 50 2,6
(.)
5 188 62 2,1

6 164 59 3,25

7 176 71 2,75

8 170 65 3

9 162,65 57,65 3,31

A.LAZRAQ 32

Aziz LAZRAQ 16
Étude séparée des caractères
6 7
2 9 3 8 4 1 5

150 154 158 162 166 170 174 178 182 186
Taille

4 9 6 5 8 2 7 1 3
50 54 58 62 66 70 74 78 82
Poids

1 9
5 4 7 8 6 3 2

20 22 24 26 28 30 32 34 36 38 40
Cap Pulmonaire

A.LAZRAQ 33

Centrage et réduction de
données(s’affranchir des unités de mesure)
X j (.)  X j
Z j (.) 
s( X j )

X j ( wi )
Xj  i

N
 (X j ( wi )  X j ) 2
s2 ( X j )  i

Z j  0 et s 2 ( Z j )  1

A.LAZRAQ 34

Aziz LAZRAQ 17
Données centrées réduites

LIBELLE ZTAILLE ZPOIDS ZCAPPUL

w1 0,69 0,82 -0,58

w2 -1,70 0,33 1,69

w3 -0,57 1,67 0,75

w4 0,57 -1,67 -0,75

w5 1,70 -0,33 -1,69

w6 -0,57 -0,67 0,47

w7 0,57 0,67 -0,47

w8 0,00 0,00 0,00

w9 -0,69 -0,82 0,58

A.LAZRAQ 35

A.LAZRAQ 36

Aziz LAZRAQ 18
A.LAZRAQ 37

A.LAZRAQ 38

Aziz LAZRAQ 19
2 w3

w1
1 w7
w2
w8
Zscore: POIDS 0 w5
w6
w9
-1
w4

2 2
1 1
0 0
-1 -1
Zscore: TAILLE Zscore: CAPP

A.LAZRAQ 39

*Un nuage de points où chaque point est caractérisé


par deux caractères(X,Y)

Y F2
F1

X
Le but de l’ACP est de prendre la meilleure photo plane du nuage
de points multidimensionnels c’est à dire, d’effectuer une projection
des individus sur un plan où les distances qui les séparent seraient
les moins déformées possibles

A.LAZRAQ 40

Aziz LAZRAQ 20
A.LAZRAQ 41

Exemple1

A.LAZRAQ 42

Aziz LAZRAQ 21
Matrice des corrélations
Taille Poids cappulm
Taille 1,00
Poids -0,12 1,00
cappulm -0,99 0,26 1,00

A.LAZRAQ 43

Matrice des valeurs-tests


Taille Poids cappulm
Taille 99,99
Poids -0,37 99,99
cappulm -7,80 0,79 99,99

A.LAZRAQ 44

Aziz LAZRAQ 22
Pourcentage d’information expliquée par chaque axe

Tableau des valeurs propres


Trace de la matrice: 3.00000
Valeur Pourcentage
Numéro Pourcentage
propre cumulé
1 2,0580 68,60 68,60
2 0,9403 31,35 99,94
3 0,0017 0,06 100,00

A.LAZRAQ 45

Exemple2
Ident Pain Legume Fruit Viande Volaille Lait Vin CSP
MA2 332,00 428,00 354,00 1437,00 526,00 247,00 427,00 MA
EM2 293,00 559,00 388,00 1527,00 567,00 239,00 258,00 EM
CA2 372,00 767,00 562,00 1948,00 927,00 235,00 433,00 CA
MA3 406,00 563,00 341,00 1507,00 544,00 324,00 407,00 MA
EM3 386,00 608,00 396,00 1501,00 558,00 319,00 363,00 EM
CA3 438,00 843,00 689,00 2345,00 1148,00 243,00 341,00 CA
MA4 534,00 660,00 367,00 1620,00 638,00 414,00 407,00 MA
EM4 460,00 699,00 484,00 1856,00 762,00 400,00 416,00 EM
CA4 385,00 789,00 621,00 2366,00 1149,00 304,00 282,00 CA
MA5 655,00 776,00 423,00 1848,00 759,00 495,00 486,00 MA
EM5 584,00 995,00 548,00 2056,00 893,00 518,00 319,00 EM
CA5 515,00 1097,00 887,00 2630,00 1167,00 561,00 284,00 CA
12 individus (lignes) et 8 caractères (colonnes)
A.LAZRAQ 46

Aziz LAZRAQ 23
Statistiques sommaires des variables continues
Libellé de la variable Moyenne Ecart-type Minimum Maximum
Pain 446,67 102,59 293,00 655,00
Légumes 732,00 181,13 428,00 1097,00
Fruits 505,00 158,06 341,00 887,00
Viande 1886,75 378,90 1437,00 2630,00
Volailles 803,17 238,94 526,00 1167,00
Lait 358,25 112,14 235,00 561,00
Vin 368,58 68,73 258,00 486,00

Tableau des valeurs propres


Trace de la matrice: 7.00000
Valeur Pourcentage
Numéro Pourcentage
propre cumulé
1 4,3332 61,90 61,90
2 1,8303 26,15 88,05
3 0,6308 9,01 97,06
4 0,1283 1,83 98,90
5 0,0576 0,82 99,72
6 0,0188 0,27 99,99
7 0,0009 A.LAZRAQ0,01 100,00 47

Matrice des corrélations


Pain Légumes Fruits Viande Volailles Lait Vin
Pain 1,00
Légumes 0,59 1,00
Fruits 0,20 0,86 1,00
Viande 0,32 0,88 0,96 1,00
Volailles 0,25 0,83 0,93 0,98 1,00
Lait 0,86 0,66 0,33 0,37 0,23 1,00
Vin 0,30 -0,36 -0,49 -0,44 -0,40 0,01 1,00

A.LAZRAQ 48

Aziz LAZRAQ 24
Matrice des valeurs-tests
Pain Légumes Fruits Viande Volailles Lait Vin
Pain 99,99
Légumes 2,36 99,99
Fruits 0,69 4,43 99,99
Viande 1,15 4,78 6,72 99,99
Volailles 0,88 4,08 5,63 8,12 99,99
Lait 4,42 2,76 1,20 1,36 0,82 99,99
Vin 1,09 -1,29 -1,84 -1,62 -1,47 0,02 99,99

A.LAZRAQ 49

Projection sur le premier plan factoriel

A.LAZRAQ 50

Aziz LAZRAQ 25
Règles d’interprétation
Projection sur le premier plan factoriel avec
superposition des deux nuages d’individus et
variables. Toutes les variables sont à
l’intérieur d’un cercle de rayon 1 appelé cercle
des corrélations
La proximité entre 2 individus s’interprète
comme ressemblance des 2 individus
La proximité entre 2 variables s’interprète
comme corrélation entre les 2 variables
La proximité entre une variable et un individu
a un sens s’ils sont éloignés du centre de
gravité du nuage et, on dit dans ce cas que
l’individu est caractérisé par la variable
A.LAZRAQ 51

Analyse Factorielle Des


Correspondances
AFC
Cette méthode opère sur un tableau
particulier appelé tableau de
contingence.
Un tableau de contingence est un
tableau de nombres positifs qui met en
correspondance des modalités de deux
caractères qualitatifs.

A.LAZRAQ 52

Aziz LAZRAQ 26
Exemple 1
Un échantillon de 212 vaches que l’on
ventile selon les deux caractères:
Le caractère Race avec 3 modalités
Race1, Race2, Race3
Le caractère production laitière ayant 4
modalités:
<20 litres, entre 10 et 20, entre 20 et 30, >30

A.LAZRAQ 53

Un Tableau de contingence

Race 1 Race 2 Race 3 Total

<10 15 10 17 42

<=10 et <20 22 19 25 66

<=20 et <30 18 15 21 54

>=30 20 14 16 50

Total 75 58 79 212

Comme en ACP, on cherche à projeter simultanément les 4 modalités du


caractère 1 et les 3 modalités du caractère 2 sur un plan afin de pouvoir
chercher les proximités ainsi que les affinités entre les 2 caractères

A.LAZRAQ 54

Aziz LAZRAQ 27
Notion de profil d’une
modalité ligne ou colonne
Profil de la modalité colonne race1:
15 22 18 20
race1  ( , , , )
75 75 75 75
Profil de la modalité ligne (>=30):
20 14 1 6
(   30)  ( , , )
50 5 0 50

A.LAZRAQ 55

Règles de positionnement des


modalités
Les points lignes sont positionnés dans
l’espace par les coordonnées de leur profil.
Les points colonnes sont positionnés dans
L’espace par les coordonnées de leur profil.
Deux points lignes ou deux points colonnes
sont donc proches s’ils ont des profils voisins.
Un point ligne est proche d’un point colonne
s’il y a attirance entre ces deux points (dans
l’extrémité du graphique).

A.LAZRAQ 56

Aziz LAZRAQ 28
Exemple 2:
Répartition d’une population par
âge et par loisir préféré
<15 ans 15 à 24 ans 25 à 39 ans 40 à 60 ans > 60 ans

TV 322 114 72 135 130

Théatre 1 17 85 92 14

Cinéma 90 220 192 87 7

Lecture 23 38 57 73 80

Restaurant 7 53 158 49 13

Night_club 0 87 109 21 0

A.LAZRAQ 57

A.LAZRAQ 58

Aziz LAZRAQ 29
« Un bon dessin vaut mieux qu’un long discours. » se dit en Data Mining
« Un bon graphique vaut mieux qu’une montagne de chiffres »

Tableau des valeurs propres

Trace de la matrice: 0.43673

Numéro Valeur propre Pourcentage Pourcentage cumulé

1 0,2900 66,41 66,41

2 0,1054 24,14 90,55

3 0,0273 6,25 96,80

4 0,0140 3,20 100,00

A.LAZRAQ 59

Exemple 3:
Couleur des yeux et des cheveux

CBrun CChatains CRoux CBlonds CChinois CSuedois

YMarron 68.000 119.000 26.000 7.000 75.000 5.000

YNoisette 15.000 54.000 14.000 10.000 20.000 10.000

YVert 5.000 29.000 14.000 16.000 5.000 20.000

YBleu 20.000 84.000 17.000 94.000 0.000 65.000

A.LAZRAQ 60

Aziz LAZRAQ 30
A.LAZRAQ 61

Règles d’interprétations
AFC
Si deux points lignes ou deux points
colonnes ont des profils identiques ou
voisins, ils seront confondus ou
proches.
L’origine des axes correspond aux
profils moyens.
Les points occupants des positions
périphériques auront donc les profils les
plus différents du profil moyen
A.LAZRAQ 62

Aziz LAZRAQ 31
Tableau des valeurs propres :pourcentage
d’information expliquée par chaque axe

Trace de la matrice: 0.35076

Numéro Valeur propre Pourcentage Pourcentage cumulé

1 0,3290 93,80 93,80

2 0,0189 5,40 99,20

3 0,0028 0,80 100,00

4 0,0000 0,00 100,00

A.LAZRAQ 63

Analyse Factorielle Discriminante


(AFD) Visualisation et prévision
(i) Sur 8 individus de 3° âge , on a relevé 2
variables quantitatives :
X1=Age (en années) ,X2=Poids(en Kg)
(ii) On définit :
Y1= X1 centré , Y2=X2 centré
Des spécialistes d’un service de gériatrie ont
affecté les 4 premiers individus à un groupe
G1(Malades peu dépendants) et, les 4
derniers à un groupe G2 (malades fortement
dépendants)
A.LAZRAQ 64

Aziz LAZRAQ 32
Individus X1(.):Années X2(.):Poids(Kg) Y1(.) Y2(.)
1 66 52
-4 -8
2 70 56
0 -4
3 74 60
4 0
4 78 64
8 4
5 62 56
-8 -4
6 66 60
-4 0
7 70 64
0 4
8 74 68
4 8
moyenne 70 60

Peut-on prévoir (discriminer) le groupe d’affectation en se basant


uniquement sur les variables quantitatives Y1 et Y2 ?

A.LAZRAQ 65

NON mais, si l’on fabrique la


variable quantitative U=Y1-Y2
•U= +4 pour tous les éléments de
groupe G1
•U=-4 pour tous les éléments du
groupe G2
On peut donc conclure que les caractères âge et poids
permettent , lorsqu’ils sont considérés « ensemble » de
parfaitement différencier (discriminer) G1 et G2

A.LAZRAQ 66

Aziz LAZRAQ 33
A.LAZRAQ 67

Principe général de l’AFD à 2


groupes
X1… Xp U

N observations X
(échantillon d’apprentissage)

N’ observations
(supplémentaires) ?

Comment peut-on prévoir le diagnostic U à partir


des symptômes quantitatifs X relevés sur les N’
individus supplémentaires ?
A.LAZRAQ 68

Aziz LAZRAQ 34
Règles d’affectations
Soient IG1 et IG2 les points moyens de chacun des deux groupes G1
et G2 ,calculés sur l’échantillon d’apprentissage et , x+ un individu
faisant partie des observations supplémentaires

SI distance(x+,IG1) < distance(x+,IG2)


affecter x+ au groupe G1
sinon au groupe G2

Affecter x+ au groupe le plus proche


A.LAZRAQ 69

Exemple d’Analyse Factorielle Discriminante


Individus (axes F1 et F2 : 100 %)

3,5

2,5

2
Cadre
1,5
Employé
1
Manuel
0,5

-0,5

-1

-1,5
-8 -6 -4 -2 0 2
- - a xe F 1 ( 9 8 %) - - >

A.LAZRAQ 70

Aziz LAZRAQ 35
La classification automatique
 Le but des méthodes de classification est
de construire
1. une partition (Classification par centre
mobile)
2. une suite de partitions emboîtées
(Classification hiérarchique)
d’un ensemble d’objets dont on connaît les
distances deux à deux .
 Les classes formées doivent être le plus
homogène possible
A.LAZRAQ 71

Classification ascendante
hiérarchiques
 On suppose au départ que l’ensemble des objets à
classer est muni d’une distance
 On connaît donc au préalable la distance entre chaque
paire d’objets
 Si h={x,y} , on peut définir:
d(h,z)=Min(d(x,z),d(y,z)) (saut min)
d(h,z)=Max(d(x,z),d(y,z)) (saut max)
d(h,z)=(d(x,z)+d(y,z))/2 (distance moyenne)

A.LAZRAQ 72

Aziz LAZRAQ 36
Algorithme de classification
hiérarchique
 i) A l’étape 0, il y a n éléments à classer
 ii)On cherche les deux éléments les plus
proches , que l’on agrège en un nouvel élément
 iii)On calcule les distances entre le nouvel
élément et les éléments restants (On se trouve
dans les mêmes conditions qu’à l’étape0 mais,
avec seulement n- n-1 éléments à classer)
 iv) Aller à l’étape ii)

A.LAZRAQ 73

Exemple Classification Hiérarchique

Classification hiérarchique directe

2
1 2
4
3 4
5

3
5
1

1 2
3 4
5

A.LAZRAQ 74

Aziz LAZRAQ 37
la méthode hiérarchique ascendante

4 a
b
3
e
2
1
d

c
a b c d e

A.LAZRAQ 75

Classification hiérarchique directe


Exemple consommation

CA5

EM5

CA4

CA3

CA2

MA5

EM4

MA4

EM2

EM3

MA3

MA2

A.LAZRAQ 76

Aziz LAZRAQ 38
Classification hiérarchique directe Exemple loisirs

Cinéma

Concert

Night_club

Restaurant

Théatre

Lecture

TV

A.LAZRAQ 77

Classification par Centres Mobiles


Objectif :
Construire une partition de k classes (k fixé au
départ)
Algorithme:
1) Choisir le nombre de classes k
2)Choisir k objets comme centres des k classes
3) Affecter chaque objet au centre le plus proche
4) Recalculer les centres des classes constituées
5) Répéter les étapes 3) et 4) jusqu’à stabilisation

A.LAZRAQ 78

Aziz LAZRAQ 39
K-means example, step 1

k1
Y
Pick 3 k2
initial
cluster
centers
(randomly)
k3

X
A.LAZRAQ 79

K-means example, step 2

k1
Y

k2
Assign
each point
to the closest
cluster
center k3

X
A.LAZRAQ 80

Aziz LAZRAQ 40
K-means example, step 3

k1 k1
Y

Move k2
each cluster
center k3
k2
to the mean
of each cluster k3

X
A.LAZRAQ 81

K-means example, step 4

Reassign k1
points Y
closest to a
different new
cluster center
k3
Q: Which k2
points are
reassigned?

X
A.LAZRAQ 82

Aziz LAZRAQ 41
K-means example, step 4 …

k1
Y
A: three
points with
animation k3
k2

X
A.LAZRAQ 83

K-means example, step 4b

k1
Y
re-compute
cluster
means k3
k2

X
A.LAZRAQ 84

Aziz LAZRAQ 42
K-means example, step 5

k1
Y

k2
move cluster
centers to k3
cluster means

X
A.LAZRAQ 85

La recherche d’associations
(Analyse du panier de la ménagère)
Where should detergents be placed in the
Store to maximize their sales?

Are window cleaning products purchased


when detergents and orange juice are
bought together?

Is soda typically purchased with bananas?


Does the brand of soda make a difference?

How are the demographics of the


neighborhood affecting what customers
are buying?

A.LAZRAQ 86

Aziz LAZRAQ 43
Panier de la ménagère

Exemple de règle:
lorsque un client achète du pain et du beurre, il achète du lait,à 85%

A.LAZRAQ 87

La recherche d’associations
(Analyse du panier de la ménagère)
Principe :
Rechercher les règles de type :
« Si pour un individu, la variable A=xA ,
la variable B=xB, etc., alors, dans 80%
des cas, la variable Z=xZ.,
cette configuration se rencontrant pour
20% des individus »

La valeur de 80 % est appelée indice de confiance.


La valeur de 20 % est appelée indice de support.

A.LAZRAQ 88

Aziz LAZRAQ 44
Analyse du panier de la
ménagère
Pour une règle :Si condition alors Résultat
Exemple :Si couches et samedi, alors bière (Wall Mart)

Indice de support=
proba(condition et résultat)

Indice de confiance=
proba(condition et résultat)
proba(condition)

A.LAZRAQ 89

Analyse du panier de la ménagère


(Exemple :tickets de caisse)
T1 A B C D E
T2 B C E F
T3 B E
T4 A B D
T5 C D
-La règle C  B a :
pour support : P(C et B)=2/5=40%
Pour indice de confiance: P(C et B)/P(C)=(2/5)/(3/5)=2/3=67%

-la probabilité d’avoir: P(B)=4/5=80% .


conclusion ( C  B non intéressante)

A.LAZRAQ 90

Aziz LAZRAQ 45
Analyse du panier de la ménagère
(Exemple :tickets de caisse)
T1 A B C D E
T2 B C E F
T3 B E
T4 A B D
T5 C D

-Gain(règle)=gain(condition  résulat) =
amélioration apportée par une règle par rapport au hasard.
Gain (règle)=indice_de_confiance (règle)/proba( résultat)=

proba(condition et résultat)

proba(condition)*proba(résultat)
Gain(C   B)  (2 / 5) /[(3 / 5) *(4 / 5)]  10 /12  5 / 6  1

A.LAZRAQ 91

Panier ménagère (suite)


T1 A B C D E
T2 B C E F
T3 B E
T4 A B D
T5 C D

Gain (B  E)=P(B et E)/(P(B)*P(E))=3/5/(4/5*3/5)=5/4>1

règle plus intéressante

A.LAZRAQ 92

Aziz LAZRAQ 46
Panier ménagère (suite)
Si une règle est: condition  résultat

-et règle inverse est : condition  non résultat

En utilisant :P(non résultat)=1-P(résultat) on obtient :

indice_de_confiance(règle inverse)=1-indice_de_confiance(règle)

Si Une règle est peu utile alors règle inverse très utile

A.LAZRAQ 93

Arbres de décision :Exemple1


Splitting Attributes
Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No


2 No Married 100K No Refund
Yes No
3 No Single 70K No
4 Yes Married 120K No NO MarSt
5 No Divorced 95K Yes Single, Divorced Married
6 No Married 60K No
7 Yes Divorced 220K No TaxInc NO
8 No Single 85K Yes < 80K > 80K
9 No Married 75K No
NO YES
10 No Single 90K Yes
10

Training Data Model: Decision Tree

A.LAZRAQ 94

Aziz LAZRAQ 47
Un autre arbre

MarSt Single,
Married Divorced
Tid Refund Marital Taxable
Status Income Cheat
NO Refund
1 Yes Single 125K No
Yes No
2 No Married 100K No
3 No Single 70K No NO TaxInc
4 Yes Married 120K No < 80K > 80K
5 No Divorced 95K Yes
NO YES
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No On peut avoir plus d’un arbre qui modélise
10 No Single 90K Yes les mêmes données
10

A.LAZRAQ 95

Méthode d’affectation
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No Learn
8 No Small 85K Yes Model
9 No Medium 75K No
10 No Small 90K Yes
10

Apply
Model
Decision
Tree
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
10

A.LAZRAQ 96

Aziz LAZRAQ 48
Appliquer le modèle sur une nouvelle
donnée
Test Data
Refund Marital Taxable
Status Income Cheat

No Married 80K ?
Refund 10

Yes No

NO MarSt
Single, Divorced Married

TaxInc NO
< 80K > 80K

NO YES

A.LAZRAQ 97

Mesure de l’impurité d’un nœud:


GINI
Indice de Gini d’un nœud t :

GINI (t )  1   [ p ( j | t )]2
j

Où p( j | t) est la fréquence relative de la classe j dans le nœud t


Maximal (1 - 1/nc) lorsque les enregistrements sont distribués
uniformément parmi les classes (cas non intéressant)
Minimal (0) lorsque tous les enregistrements appartiennent à
la même classe (cas plus intéressant)

C1 0 C1 1 C1 2 C1 3
C2 6 C2 5 C2 4 C2 3
Gini=0.000 Gini=0.278 Gini=0.444 Gini=0.500

A.LAZRAQ 98

Aziz LAZRAQ 49
Arbres de décision
Algorithme
a)Pour chaque attribut explicatif, on partitionne
l’ensemble des individus puis on calcule le degré
d’impureté associé à cette partition
b) On choisit comme premier attribut de
partitionnement celui donnant le degré d’impureté
le moins élevé.
c) Pour segmenter chacune des parties obtenues, on
réitère a) et b) pour chaque attribut explicatif.
d) On s’arrête quand la partie contient peu d’
individus ou qu’on a atteint le degré d’impureté 0.

A.LAZRAQ 99

Evaluation d’un arbre de decision


CLASSE PREDITE

Classe=Oui Classe=Non
CLASSE
Classe=Oui a b
REELLE (VP) (FN)
Classe=Non c d
(FP) (VN)

a  d VP  VN
P ré cisio n  
a b c d TP  VN  FP  FN

A.LAZRAQ 100

Aziz LAZRAQ 50
Exemple2:Arbres de décision
variables explicatives continues

Variable explicative y

?
y2

y1

x1 Variable explicative x
A.LAZRAQ 101

Arbres de décision

SI X  x1 alors
Sinon SI Y  y1 alors
X
Sinon SI Y  y2 alors
X  x1 X  x1 Sinon

Y
Y  y1 Y  y2
y1  Y  y2

Nœud de décision

A.LAZRAQ Feuille 102

Aziz LAZRAQ 51
Exemple3 :Arbre de décision (segmentation)

Fru <=377.50
3(100%)
Pain <=619.50
Fru <=555.00 0( 0%)
0( 0%) 0( 0%)
4( 50%) 4(100%)
4( 50%) Fru > 377.50 0( 0%)
0( 0%)
1( 20%)
4( 33%) Pain > 619.50
4( 80%)
4( 33%) 1(100%)
Fru > 555.00 0( 0%)
4( 33%) 0( 0%)
0( 0%) 0( 0%)
0( 0%)
4(100%)

A.LAZRAQ 103

5. Réseaux de neurones
Tentative de reproduction des structures du
cerveau et du raisonnement
Ensemble d'unités (neurones) connectées
transformant des entrées en sorties où
chaque connexion à un poids associé
La phase d'apprentissage permet d'ajuster les
poids pour produire la bonne sortie (la classe
en classification)

A.LAZRAQ 104

Aziz LAZRAQ 52
Analogie avec le cerveau
Le cerveau humain contient environ 100 milliards de
neurones, et chacun est connecté à environ 10.000
autres
Un neurone reçoit des impulsions électriques de ses
voisins via les dendrites. Si la somme des signaux
dépasse un certain seuil, il se produit une décharge
électrique de type tout ou rien appelée potentiel
d’action. Le potentiel d’action se propage le long de
l’axone, qui se ramifie en une multitude de
dendrites.
La terminaison d’une dendrite est une petite usine
de production chimique. Elle diffuse des
neurotransmetteurs chimiques dans un espace
appelé synapse, qui rejoint un autre neurone.

A.LAZRAQ 105

Modélisation du neurone

Signaux
Signal transmis
provenant des +
+ Somme Seuil si le seuil est
autres + franchi
neurones

A.LAZRAQ 106

Aziz LAZRAQ 53
Plus précisément …
On calcule une valeur
de sortie à partir d'un
ensemble de valeurs en
entrée
Les liens sont pondérés
par des poids Entrée En
wn
Réalise une combinaison
linéaire des entrées Entrée Ei wi wi Ei +b f
suivie d’une fonction de
Sortie

transfert (fonction à w1
seuil) Entrée E1

Fonction Sigma (wi Ei)


Biais optionnel b
Fonction Sigmoïde
f() = 1/(1+e- )

A.LAZRAQ 107

Combinaison/Activation

Entrée 1
0,5
0,1 0,75
Entrée 2 Combinaison Activation

Entrée 3 0,9

Phase de combinaison : combine les entrées et


produit une valeur en sortie
Phase d’activation : prend en entrée la sortie
de la fonction de combinaison et déduit la
valeur de sortie en appliquant la fonction
d’activation
A.LAZRAQ 108

Aziz LAZRAQ 54
Type de fonction f d’activation
utilisée

(a) : seuil (fonction de Heavyside)


Heavyside)
(b) : linéaire par morceaux
(c) : sigmoïde f(x) =1/ [1 + expexp(( – βx) ]
(d) : gaussienne

A.LAZRAQ 109

Organisation en réseau
Réseau multi-couches totalement connecté
E1
S1
E2
S2
E3
S3
E4

Entrées, Calculs (cachés), Sorties

A.LAZRAQ 110

Aziz LAZRAQ 55
Topologie
Choix du nombre de couches
entrées, 1 ou 2 couches cachées, sorties
Choix du nombre de neurones par couche
dépend des entrées et sorties
couches cachées intermédiaires
Normalisation des variables d'entrées
Variable continue centrée réduite [-1,+1]
Variable discrète codée ou valeurs attribuées aux
entrées
Sorties booléenne codant les classes

A.LAZRAQ 111

Perceptron multicouche

Entrées Couches cachées Sorties

A.LAZRAQ 112

Aziz LAZRAQ 56
Apprentissage
Découverte de modèles complexes avec
affinage progressif
Le réseau s'adapte lors de la phase
d ’apprentissage
Plusieurs algorithmes possibles
le plus utilisé = rétropropagation
modification des poids wi par
rétropropagation

A.LAZRAQ 113

Principe
Off-Line ou Batch : après tous les
exemples
On-Line ou Stochastique : après chaque
exemple
Jusqu’à condition d’arrêt

Calcul des erreurs de


Initialisation de la Pour chaque exemple
sortie et application de
matrice des poids calculer la sortie avec les
l’algorithme de mise à
au hasard poids actuels du réseau
Jour des poids

A.LAZRAQ 114

Aziz LAZRAQ 57
Forces et Faiblesses
Permet d'approcher toute sorte de fonction
Coûteux en apprentissage:
calculs complexes
possibilité d'élaguer le réseau en connexions
peu applicable sur de larges BD
Effet boite noire
comportement difficile à expliquer
Autres applications possibles
prédiction, décodage, reconnaissance de formes,
etc.
A.LAZRAQ 115

Exemple fichier consommation

A.LAZRAQ 116

Aziz LAZRAQ 58
Prévision Avec le réseau
trouvé

A.LAZRAQ 117

Processus du Data Mining


Poser le problème;
Rechercher les données;
Sélectionner les données pertinentes;
Nettoyer» les données;
Changer les variables;
Rechercher un modèle;
Évaluer le résultat;
Intégrer les connaissances.

A.LAZRAQ 118

Aziz LAZRAQ 59
Knowledge Discovery Process
flow, according to CRISP-DM

see
Monitoring www.crisp-dm.org
for more
information

CRISP-DM,
signifie :
Cross-Industry
Standard Process
for Data Mining

A.LAZRAQ 119

Les différentes techniques de DATA


MINING
 Les méthodes de description et de visualisation
(Non supervisées)
 Analyse en composantes principales
 Analyse factorielle des correspondances
 Analyse factorielle des correspondances multiples
 Classification automatique
 Recherche d’associations (Panier de la ménagère)

 Les méthodes de prévision (Supervisées)


 Analyse discriminante
 Régression linéaire et logistique
 Techniques de scoring
 Techniques de segmentation par arbre de décision
 Réseaux de neurones et applications

 Compléments
 Le texte mining A.LAZRAQ 120
 Le web mining

Aziz LAZRAQ 60
LOGICIELS de DATA MINING
NOM DU PRODUIT SOCIETE
SPAD SPAD

SQL Server Miner MS SQL Server

MODELER (CLEMENTINE) IBM(SPSS)

INTELLIGENT MINER IBM

ENTREPRISE MINER SAS

STATISTICA DATA MINER STATSOFT

STATBOX (Sous EXCEL) GRIMMERSOFT


XLMINER (Sous EXCEL) RESAMPLING STATS, Inc.

A.LAZRAQ 121

Quelques logiciels libres de


DATA MINING

Logiciel Site
Knime http://www.knime.org/
Rapidminer http://rapid-i.com/
Tanagra http://eric.univ-lyon2.fr/~ricco/tanagra/
Orange http://www.ailab.si/orange
Weka http://www.cs.waikato.ac.nz/~ml/
R http://www.r-project.org/

A.LAZRAQ 122

Aziz LAZRAQ 61