Professional Documents
Culture Documents
Cours Data Mining
Cours Data Mining
⬥Définition et introduction
⬥Principales applications
⬥Méthodologie du DM
⬥Exemples de fonctionnement
3
Fouille de données (FDD)
4
Pourquoi la FDD maintenant?
5
définition
6
Définition
⬥ Data mining
■ ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen
Don Con
Data
nées naiss
mini
entre ance
ng
pôt Découverte de s
Compréhension
modèles Prédiction
7
Connaissances
⬥ Exemples
■ analyses (distribution du trafic en fonction de l ’heure)
■ scores (fidélité d ’un client), classes (mauvais payeurs)
■ règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)
8
Découverte de modèles
x1 c Confiance
Entrées x2
x3 y
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
9
Exemples de modèles
⬥ Vue classique:
■ Si salaire annuel >= 30,000 et années de service
>= 5 et propriétaire = vrai
alors risque de défaut de paiement = faux
■ Age(X, “jeune”) et Salaire(X,”élevé”) ⇒
Classe(X,”A”)
⬥ Vue probabilistique:
■ La plupart des personnes qui ont un bon crédit
sont propriétaires
10
Exemples de modèles
⬥ Vue exemplaire:
■ Un exemple est déterminé comme une instance
d’un concept
■ Les exemples suivants sont considérés comme
ayant un bon crédit:
● Salaire = 32,000, années = 6, propriétaire
● Salaire = 52,000, années = 16, locataire
11
Exemples de modèles
12
Application: Assurances
Assurances Définition des
profils des
clients
■Analyse des données ■Élimination des
personnelles (sexe, age, “mauvais” clients
profession…)
■Tarification du
■Analyse des données sur
les éléments à assurer contrat
(type de voiture, ■Évaluation des
puissance…) risques
■Détection des
fraudes
13
Application: Banques
Banques Définition des
profils des
clients
■Analyse de la ■Élimination des
situation bancaire “mauvais” clients
(solde, produits ■Autorisation de
bancaires …) crédits aux “bons”
■Analyse de données clients
supplémentaires ■Propositions
(sexe, profession, spécifiques de
situation familiale…) services
14
Application: Banques
Banques Détection des
évolutions de
profils
■Analyse de la situation ■Détection de la lassitude
bancaire (solde, produits d’un client (possibilité de
bancaires possédés…) trouver de nouvelles
■Analyse des données propositions plus
supplémentaires adaptées)
(situation familiale, ■Détection de
profession…) l’amélioration ou de la
détérioration de la
situation bancaire
15
Application: Banques
Banques Détection de
comportements
particuliers
■Analyse de la situation ■Détection des
bancaire (solde, produits
bancaires possédés…) fraudes
■Analyse des données (utilisation
supplémentaires anormale des
(situation familiale,
profession…) systèmes de
paiement)
16
Application: Bourse
17
Application: Production
Industrielle
Production Prédiction et
industrielle détection
■Analyse du ■Optimisation de la
fonctionnement de la production
chaîne de production ■Adéquation au marché
■Analyse des produits ■Anticipation des défauts
■Analyse des ventes ■Diagnostics de pannes
■Analyse de
questionnaires
(prospectifs,
satisfaction…)
18
Application: Internet
Internet Détermination
d’un thème,
d’un sujet
■Analyse ■Aide à l’organisation
automatique de des messages reçus
■Moteur de recherche
sites
évolué (design des
■Analyse
systèmes)
automatique du ■Décision de
courrier marketing
électronique ■Espionnage
19
FDD: Sur quelles données? (1)
⬥ Base de données relationnelles
⬥ Base de données transactionnelles
⬥ Base de données orientées objets
⬥ Base de données temporelles
■ Exemple: Bourse
20
FDD: Sur quelles données? (2)
21
FDD: Sur quelles données? (3)
22
Les fonctions de la FDD:
Regroupement (Cluster)
⬥ Regroupement d’éléments de proche en proche
fondé sur leur ressemblance
⬥ Les classes sont inconnues, et sont donc créées
⬥ Exemple:
■ Segmentation du marché
⬥ Algorithmes:
■ K-moyennes
■ Réseaux neuronaux
23
Construction et évaluation d’un
modèle
24
Matrice de confusion
25
Validation d’un modèle
⬥ Matrice de confusion
■ comparaison des cas observés par rapport aux prédictions
● exemple : prédiction de factures impayées
Prédit Observé
PayéRetardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
■ Validité du modèle
● nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
26
Principales Techniques
⬥ Dérivées
■ des statistiques
■ de l'analyse de données (e.g., analyse en composantes)
■ de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
■ des bases de données (e.g., règles associatives)
⬥ Appliquées aux grandes bases de données
⬥ Difficultés :
■ passage à l'échelle et performance
■ fonctionnement avec échantillon > qq milliers
■ présentation et validation des résultats
27
Knowledge Discovery in
Databases (KDD)
■ Processus complet d’Extraction de Connaissance des
Données (ECD)
■ Comprend plusieurs phases dont le data mining
28
Le processus de KDD
29
Etapes du processus
30
31
32
33
34
L'analyse factorielle🡺 plusieurs méthodes d'analyses de grands tableaux rectangulaires
de données, visant à déterminer et à hiérarchiser des facteurs corrélés aux données
placées en colonnes.
35
36
37
38
39
40
41
42
43
44
Apprentissage supervisé
45
Apprentissage non supervisé
⬥ Construction d’un modèle et découverte des
relations dans les données sans référence à
d’autres données
⬥ On ne dispose d'aucune autre information
préalable que la description des exemples
⬥ La segmentation, le regroupement (cluster), la
méthode des k-moyennes et les associations sont
des méthodes d’apprentissage non supervisées
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
EXEMPLE
70
Exemple
71
Exemple
72
Exemple
73
Exemple
74
Exemple
75
Exemple
76
Exemple
77
Exemple
78
Exemple
79
Exemple
80
Exemple
81
82
Exemple
83
Exemple
84
Exemple
85
Exemple
86
Exemple
87
Exemple
88
Exemple
89
Exemple
90
Exemple
91
Exemple
92
Exemple
93
Exemple
94
Exemple
95
Exemple
96
Exemple
97
Exemple
98
Exemple
99
Exemple
100
Exemple
101
Exemple
102
Exemple
103
Exemple
104
Exemple
105
Exemple
106
Exemple
107
Exemple
108
Exemple
109
Exemple
110
Exemple
111
112
Règles d’association
Motivations et généralités
⬥ Approche automatique pour découvrir des relations /
corrélations intéressantes entre des objets
⬥ Règles de la forme: X ⇒ Y [support, confidence]
■ X et Y peuvent être composés de conjonctions
⬥ Applications:
■ Utilisé pour analyser le panier de la ménagère
C2 C2
L2 Parcours D
C3 Parcours D L3
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
K-means
142
143
144
145
146
147
148
149
150
151
152