Cours Data Mining

Hager Bouraoui
Data Mining - Hager Bouraoui 1

Le Data Mining
⬥Définition et introduction
⬥Principales applications
⬥Méthodologie du DM
⬥Exemples de fonctionnement
Data Mining - Hager Bouraoui 2

Données et information
⬥ Les entreprises produisent des quantités énormes de

données
■ Sources: affaires, science, géographie, environnement…
⬥ Les données sont des ressources de valeur
⬥ Besoin de techniques pour analyser les données et
extraire des informations / connaissances
automatiquement
■ Données = faits
■ Information = modèle / motif (pattern) dans les données
3
Fouille de données (FDD)
⬥ Découverte de connaissances dans les données ou

création d’un modèle des données
⬥ Processus qui emploie des techniques d’apprentissage
automatiques et intelligentes pour analyser et extraire
des connaissances, de grandes quantités de données
⬥ 98% de ce que les humains apprennent proviennent
de reconnaissance des formes [Kurzwell]
4
Pourquoi la FDD maintenant?
⬥ Des machines plus puissantes

⬥ Existence d’algorithmes de fouille de données
⬥ Collections et sauvegardes des données améliorées
⬥ Domaine à la confluence de différents domaines:
base de données, statistiques, intelligence
artificielle, visualisation, parallélisme…
⬥ Domaine pluridisciplinaire
5
définition
⬥ la fouille de données vise :

■ à extraire des informations cachées par analyse
globale
■ à découvrir des modèles (“patterns”) difficiles à
percevoir car:
● le volume de données est très grand
● le nombre de variables à considérer est important
● ces “patterns” sont imprévisibles
6
Définition
⬥ Data mining
■ ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen
Don Con
Data
nées naiss
mini
entre ance
ng
pôt Découverte de s
Compréhension
modèles Prédiction
7
Connaissances
⬥ Exemples
■ analyses (distribution du trafic en fonction de l ’heure)
■ scores (fidélité d ’un client), classes (mauvais payeurs)
■ règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)
8
Découverte de modèles
x1 c Confiance
Entrées x2
x3 y
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
9
Exemples de modèles
⬥ Vue classique:
■ Si salaire annuel >= 30,000 et années de service
>= 5 et propriétaire = vrai
alors risque de défaut de paiement = faux
■ Age(X, “jeune”) et Salaire(X,”élevé”) ⇒
Classe(X,”A”)
⬥ Vue probabilistique:
■ La plupart des personnes qui ont un bon crédit
sont propriétaires
10
⬥ Vue exemplaire:
■ Un exemple est déterminé comme une instance
d’un concept
■ Les exemples suivants sont considérés comme
ayant un bon crédit:
● Salaire = 32,000, années = 6, propriétaire
● Salaire = 52,000, années = 16, locataire
11
■ Les exemples peuvent être présentés par des

tables:
Age Salaire Classe Total

Jeune Elevé A 1402
Jeune Bas B 1038
Agé Elevé C 786
12
Application: Assurances
Assurances Définition des
profils des
clients
■Analyse des données ■Élimination des
personnelles (sexe, age, “mauvais” clients
profession…)
■Tarification du
■Analyse des données sur
les éléments à assurer contrat
(type de voiture, ■Évaluation des
puissance…) risques
■Détection des
fraudes
13
Application: Banques
Banques Définition des
profils des
clients
■Analyse de la ■Élimination des
situation bancaire “mauvais” clients
(solde, produits ■Autorisation de
bancaires …) crédits aux “bons”
■Analyse de données clients
supplémentaires ■Propositions
(sexe, profession, spécifiques de
situation familiale…) services
14
Banques Détection des
évolutions de
profils
■Analyse de la situation ■Détection de la lassitude
bancaire (solde, produits d’un client (possibilité de
bancaires possédés…) trouver de nouvelles
■Analyse des données propositions plus
supplémentaires adaptées)
(situation familiale, ■Détection de
profession…) l’amélioration ou de la
détérioration de la
situation bancaire
15
Banques Détection de
comportements
particuliers
■Analyse de la situation ■Détection des
bancaire (solde, produits
bancaires possédés…) fraudes
■Analyse des données (utilisation
supplémentaires anormale des
(situation familiale,
profession…) systèmes de
paiement)
16
Application: Bourse
⬥ Analyse du cours de la bourse pour pouvoir

passer des ordres automatiques de
transactions boursières
17
Application: Production
Industrielle
Production Prédiction et
industrielle détection
■Analyse du ■Optimisation de la
fonctionnement de la production
chaîne de production ■Adéquation au marché
■Analyse des produits ■Anticipation des défauts
■Analyse des ventes ■Diagnostics de pannes
■Analyse de
questionnaires
(prospectifs,
satisfaction…)
18
Application: Internet
Internet Détermination
d’un thème,
d’un sujet
■Analyse ■Aide à l’organisation
automatique de des messages reçus
■Moteur de recherche
sites
évolué (design des
■Analyse
systèmes)
automatique du ■Décision de
courrier marketing
électronique ■Espionnage
19
FDD: Sur quelles données? (1)
⬥ Base de données relationnelles
⬥ Base de données transactionnelles
⬥ Base de données orientées objets
⬥ Base de données temporelles
■ Exemple: Bourse
20
⬥ Base de données spatiales

■ Exemples: Images provenant de satellites, cartes
géographiques
⬥ Entrepôts de données*
⬥ Base de données textuelles
■ Les données sont décrites par des mots
■ Exemples: le courrier électronique, les pages html/xml
21
⬥ Base de données multimédia

■ Des techniques de recherche et de stockage
avancées sont nécessaires
⬥ Internet
⬥ Besoins de techniques particulières à chaque
type de données pour la fouille de données
22
Les fonctions de la FDD:
Regroupement (Cluster)
⬥ Regroupement d’éléments de proche en proche
fondé sur leur ressemblance
⬥ Les classes sont inconnues, et sont donc créées
⬥ Exemple:
■ Segmentation du marché
⬥ Algorithmes:
■ K-moyennes
■ Réseaux neuronaux
23
Construction et évaluation d’un
modèle
⬥ Les données sont séparées en 3 ensembles:

■ Ensemble d’apprentissage
■ Ensemble de validation
■ Ensemble test
24
Matrice de confusion
⬥ VN : Nombre de vrais négatifs

⬥ FN : Nombre de faux négatifs
⬥ FP : Nombre de faux positifs
⬥ VP : Nombre de vrais positifs
ie:Si le classifieur ne commet aucune erreur, c'est-à-dire qu'il prédit toujours la
classe réelle, alors est une matrice diagonale (ce qui signifie que les coefficients
en dehors de la diagonale sont tous nuls).
25
Validation d’un modèle
⬥ Matrice de confusion
■ comparaison des cas observés par rapport aux prédictions
● exemple : prédiction de factures impayées
Prédit Observé
PayéRetardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
■ Validité du modèle
● nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
26
Principales Techniques
⬥ Dérivées
■ des statistiques
■ de l'analyse de données (e.g., analyse en composantes)
■ de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
■ des bases de données (e.g., règles associatives)
⬥ Appliquées aux grandes bases de données
⬥ Difficultés :
■ passage à l'échelle et performance
■ fonctionnement avec échantillon > qq milliers
■ présentation et validation des résultats
27
Knowledge Discovery in
Databases (KDD)
■ Processus complet d’Extraction de Connaissance des
Données (ECD)
■ Comprend plusieurs phases dont le data mining
28
Le processus de KDD
29
Etapes du processus
⬥ 1. Compréhension du domaine d’application

⬥ 2. Création du fichier cible (target data set)
⬥ 3. Traitement des données brutes (data cleaning and preprocessing)
⬥ 4. Réduction des données (data reduction and projection)
⬥ 5. Définition des tâches de fouille de données
⬥ 6. Choix des algorithmes appropriés de fouille de données
⬥ 7. Fouille de données (data mining)
⬥ 8. Interprétation des formes extraites (mined patterns)
⬥ 9. Validation des connaissances extraites
⬥ (source : Fayyat et al., 1996, p. 1-34)
30
31
32
33
34
L'analyse factorielle🡺 plusieurs méthodes d'analyses de grands tableaux rectangulaires
de données, visant à déterminer et à hiérarchiser des facteurs corrélés aux données
placées en colonnes.
35
36
37
38
39
40
41
42
43
44
Apprentissage supervisé
⬥ Modèle inductif où l’apprenant considère un

ensemble d’exemples, et infère l’appartenance d’un
objet à une classe en considérant les similarités
entre l’objet et les éléments de la classe
⬥ Les classes sont étiquetées préalablement (image
médicale, sport…)
⬥ La plupart des algorithmes (classification,
estimation, prédiction) utilisent l’apprentissage
supervisé
45
Apprentissage non supervisé
⬥ Construction d’un modèle et découverte des
relations dans les données sans référence à
d’autres données
⬥ On ne dispose d'aucune autre information
préalable que la description des exemples
⬥ La segmentation, le regroupement (cluster), la
méthode des k-moyennes et les associations sont
des méthodes d’apprentissage non supervisées
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
EXEMPLE
70
Exemple
71
Exemple
72
Exemple
73
Exemple
74
Exemple
75
Exemple
76
Exemple
77
Exemple
78
Exemple
79
Exemple
80
Exemple
81
82
Exemple
83
Exemple
84
Exemple
85
Exemple
86
Exemple
87
Exemple
88
Exemple
89
Exemple
90
Exemple
91
Exemple
92
Exemple
93
Exemple
94
Exemple
95
Exemple
96
Exemple
97
Exemple
98
Exemple
99
Exemple
100
Exemple
101
Exemple
102
Exemple
103
Exemple
104
Exemple
105
Exemple
106
Exemple
107
Exemple
108
Exemple
109
Exemple
110
Exemple
111
112
Règles d’association
Motivations et généralités
⬥ Approche automatique pour découvrir des relations /
corrélations intéressantes entre des objets
⬥ Règles de la forme: X ⇒ Y [support, confidence]
■ X et Y peuvent être composés de conjonctions
■ Support P(X ⇒ Y) = P(X et Y)
■ Confidence P(X ⇒ Y) = P(X et Y)/P(X)
⬥ Applications:
■ Utilisé pour analyser le panier de la ménagère
● Design des rayons dans les supermarchés, ventes croisées,

segmentation du marché, design des catalogues de ventes, ,
promotion, améliorer la structure d’un site web …
■ Détection des fraudes
■ Gestion des stocks
Méthode
⬥ Traiter toutes les combinaisons possibles des

attributs et de leurs valeurs pour créer toutes les
règles d’association possibles
⬥ Nombre de règles gigantesque
⬥ Amélioration: Garder les règles avec un support et
une confidence minimum
L’algorithme A Priori
⬥ Un item est une paire (attribut, valeur)

⬥ Un ensemble d’items regroupe des items (sans
duplication)
⬥ Principe de l’algorithme A Priori:
■ Génération d’ensembles d’items
■ Calcul des fréquences des ensembles d’items
■ On garde les ensembles d’items avec un support
minimum (minsup): les ensembles d’items fréquents
■ On ne génère et on ne garde que les règles avec une
confidence minimum
La propriété de fréquence des
ensembles d’items
⬥ On utilise certaines propriétés pour construire les ensembles
d’items
⬥ Les sous-ensembles d’un ensemble d’items fréquent sont aussi
des ensembles d’items fréquents
■ Par exemple, si {A,B} est un ensemble d’items fréquents, alors {A} et
{B} sont aussi des ensembles d’items fréquents
■ Plus généralement, les sous-ensembles de k-1 items d’un ensemble de k
items fréquent sont fréquents
● Ie: Tous les sous ensembles d’un itemset fréquent sont fréquents
● Si un itemset X n’est pas fréquent alors il n’existe pas d’itemset Y t.q X C Y qui
soit fréquent
Construction des ensembles
d’items
⬥ En utilisant la propriété de fréquence des ensembles
d’items, on voit qu’on peut construire les ensembles
d’items incrémentalement:
■ On commence avec les ensembles à un item
■ Un ensemble de k items peut être construit par jointure
d’un ensemble d’ensembles de k-1 items avec lui-même, et
en vérifiant la propriété de fréquence
119
120
121
122
Exemple
⬥ On suppose que les ensembles d’items sont composés

d’items ordonnés (par exemple léxicographiquement)
⬥ Considérons les ensembles de 3 items suivants:
■ S = {(A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D)}
⬥ S est joint avec lui-même
⬥ (A,C,D,E) n’est pas un ensemble de 4 items fréquent
(car (C,D,E) n’est pas dans S)
⬥ (A,B,C,D) est un ensemble de 4 items fréquent
Ensembles d’items et règles
⬥ Un ensemble d’items peut représenter plusieurs règles
⬥ Exemple:
■ A partir de {A,B,C}, on peut construire 7 règles avec le
même support:
● A ⇒ B, C
● B ⇒ A, C
● C ⇒ A, B
● A, B ⇒ C
● A, C ⇒ B
● B, C ⇒ A
● True ⇒ A, B, C
mais pas la même confidence
Générer les règles
⬥ Transformer les ensemble d’items en règles

de manière efficace
⬥ D’un ensemble de n items, on peut générer
2n –1 règles potentielles
⬥ On ne garde que les règles avec une
confidence minimum
Exemple complet
BD D
L1
C1
Parcours D
C2 C2
L2 Parcours D
C3 Parcours D L3
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
K-means
142
143
144
145
146
147
148
149
150
151
152

Cours Data Mining

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours Data Mining

Uploaded by

Copyright:

Available Formats

Hager Bouraoui

Data Mining - Hager Bouraoui 1

Data Mining - Hager Bouraoui 2

⬥ Les entreprises produisent des quantités énormes de

⬥ Découverte de connaissances dans les données ou

⬥ Des machines plus puissantes

⬥ la fouille de données vise :

■ Les exemples peuvent être présentés par des

Age Salaire Classe Total

Jeune Bas B 1038

Agé Elevé C 786

⬥ Analyse du cours de la bourse pour pouvoir

⬥ Base de données spatiales

⬥ Base de données multimédia

⬥ Les données sont séparées en 3 ensembles:

⬥ VN : Nombre de vrais négatifs

⬥ 1. Compréhension du domaine d’application

⬥ Modèle inductif où l’apprenant considère un

■ Support P(X ⇒ Y) = P(X et Y)

■ Confidence P(X ⇒ Y) = P(X et Y)/P(X)

● Design des rayons dans les supermarchés, ventes croisées,

⬥ Traiter toutes les combinaisons possibles des

⬥ Un item est une paire (attribut, valeur)

⬥ On suppose que les ensembles d’items sont composés

⬥ Transformer les ensemble d’items en règles

You might also like