You are on page 1of 152

Hager Bouraoui

Data Mining - Hager Bouraoui 1


Le Data Mining

⬥Définition et introduction
⬥Principales applications
⬥Méthodologie du DM
⬥Exemples de fonctionnement

Data Mining - Hager Bouraoui 2


Données et information

⬥ Les entreprises produisent des quantités énormes de


données
■ Sources: affaires, science, géographie, environnement…
⬥ Les données sont des ressources de valeur
⬥ Besoin de techniques pour analyser les données et
extraire des informations / connaissances
automatiquement
■ Données = faits
■ Information = modèle / motif (pattern) dans les données

3
Fouille de données (FDD)

⬥ Découverte de connaissances dans les données ou


création d’un modèle des données
⬥ Processus qui emploie des techniques d’apprentissage
automatiques et intelligentes pour analyser et extraire
des connaissances, de grandes quantités de données
⬥ 98% de ce que les humains apprennent proviennent
de reconnaissance des formes [Kurzwell]

4
Pourquoi la FDD maintenant?

⬥ Des machines plus puissantes


⬥ Existence d’algorithmes de fouille de données
⬥ Collections et sauvegardes des données améliorées
⬥ Domaine à la confluence de différents domaines:
base de données, statistiques, intelligence
artificielle, visualisation, parallélisme…
⬥ Domaine pluridisciplinaire

5
définition

⬥ la fouille de données vise :


■ à extraire des informations cachées par analyse
globale
■ à découvrir des modèles (“patterns”) difficiles à
percevoir car:
● le volume de données est très grand
● le nombre de variables à considérer est important
● ces “patterns” sont imprévisibles

6
Définition

⬥ Data mining
■ ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen
Don Con
Data
nées naiss
mini
entre ance
ng
pôt Découverte de s
Compréhension
modèles Prédiction
7
Connaissances

⬥ Exemples
■ analyses (distribution du trafic en fonction de l ’heure)
■ scores (fidélité d ’un client), classes (mauvais payeurs)
■ règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)

8
Découverte de modèles

x1 c Confiance
Entrées x2
x3 y
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
9
Exemples de modèles

⬥ Vue classique:
■ Si salaire annuel >= 30,000 et années de service
>= 5 et propriétaire = vrai
alors risque de défaut de paiement = faux
■ Age(X, “jeune”) et Salaire(X,”élevé”) ⇒
Classe(X,”A”)
⬥ Vue probabilistique:
■ La plupart des personnes qui ont un bon crédit
sont propriétaires
10
Exemples de modèles

⬥ Vue exemplaire:
■ Un exemple est déterminé comme une instance
d’un concept
■ Les exemples suivants sont considérés comme
ayant un bon crédit:
● Salaire = 32,000, années = 6, propriétaire
● Salaire = 52,000, années = 16, locataire

11
Exemples de modèles

■ Les exemples peuvent être présentés par des


tables:

Age Salaire Classe Total


Jeune Elevé A 1402

Jeune Bas B 1038

Agé Elevé C 786

12
Application: Assurances
Assurances Définition des
profils des
clients
■Analyse des données ■Élimination des
personnelles (sexe, age, “mauvais” clients
profession…)
■Tarification du
■Analyse des données sur
les éléments à assurer contrat
(type de voiture, ■Évaluation des
puissance…) risques
■Détection des
fraudes
13
Application: Banques
Banques Définition des
profils des
clients
■Analyse de la ■Élimination des
situation bancaire “mauvais” clients
(solde, produits ■Autorisation de
bancaires …) crédits aux “bons”
■Analyse de données clients
supplémentaires ■Propositions
(sexe, profession, spécifiques de
situation familiale…) services
14
Application: Banques
Banques Détection des
évolutions de
profils
■Analyse de la situation ■Détection de la lassitude
bancaire (solde, produits d’un client (possibilité de
bancaires possédés…) trouver de nouvelles
■Analyse des données propositions plus
supplémentaires adaptées)
(situation familiale, ■Détection de
profession…) l’amélioration ou de la
détérioration de la
situation bancaire

15
Application: Banques
Banques Détection de
comportements
particuliers
■Analyse de la situation ■Détection des
bancaire (solde, produits
bancaires possédés…) fraudes
■Analyse des données (utilisation
supplémentaires anormale des
(situation familiale,
profession…) systèmes de
paiement)

16
Application: Bourse

⬥ Analyse du cours de la bourse pour pouvoir


passer des ordres automatiques de
transactions boursières

17
Application: Production
Industrielle
Production Prédiction et
industrielle détection
■Analyse du ■Optimisation de la
fonctionnement de la production
chaîne de production ■Adéquation au marché
■Analyse des produits ■Anticipation des défauts
■Analyse des ventes ■Diagnostics de pannes

■Analyse de
questionnaires
(prospectifs,
satisfaction…)

18
Application: Internet
Internet Détermination
d’un thème,
d’un sujet
■Analyse ■Aide à l’organisation
automatique de des messages reçus
■Moteur de recherche
sites
évolué (design des
■Analyse
systèmes)
automatique du ■Décision de
courrier marketing
électronique ■Espionnage

19
FDD: Sur quelles données? (1)
⬥ Base de données relationnelles
⬥ Base de données transactionnelles
⬥ Base de données orientées objets
⬥ Base de données temporelles
■ Exemple: Bourse

20
FDD: Sur quelles données? (2)

⬥ Base de données spatiales


■ Exemples: Images provenant de satellites, cartes
géographiques
⬥ Entrepôts de données*
⬥ Base de données textuelles
■ Les données sont décrites par des mots
■ Exemples: le courrier électronique, les pages html/xml

21
FDD: Sur quelles données? (3)

⬥ Base de données multimédia


■ Des techniques de recherche et de stockage
avancées sont nécessaires
⬥ Internet
⬥ Besoins de techniques particulières à chaque
type de données pour la fouille de données

22
Les fonctions de la FDD:
Regroupement (Cluster)
⬥ Regroupement d’éléments de proche en proche
fondé sur leur ressemblance
⬥ Les classes sont inconnues, et sont donc créées
⬥ Exemple:
■ Segmentation du marché
⬥ Algorithmes:
■ K-moyennes
■ Réseaux neuronaux

23
Construction et évaluation d’un
modèle

⬥ Les données sont séparées en 3 ensembles:


■ Ensemble d’apprentissage
■ Ensemble de validation
■ Ensemble test

24
Matrice de confusion

⬥ VN : Nombre de vrais négatifs


⬥ FN : Nombre de faux négatifs
⬥ FP : Nombre de faux positifs
⬥ VP : Nombre de vrais positifs
ie:Si le classifieur ne commet aucune erreur, c'est-à-dire qu'il prédit toujours la
classe réelle, alors est une matrice diagonale (ce qui signifie que les coefficients
en dehors de la diagonale sont tous nuls).

25
Validation d’un modèle

⬥ Matrice de confusion
■ comparaison des cas observés par rapport aux prédictions
● exemple : prédiction de factures impayées
Prédit Observé
PayéRetardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
■ Validité du modèle
● nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
26
Principales Techniques
⬥ Dérivées
■ des statistiques
■ de l'analyse de données (e.g., analyse en composantes)
■ de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
■ des bases de données (e.g., règles associatives)
⬥ Appliquées aux grandes bases de données
⬥ Difficultés :
■ passage à l'échelle et performance
■ fonctionnement avec échantillon > qq milliers
■ présentation et validation des résultats
27
Knowledge Discovery in
Databases (KDD)
■ Processus complet d’Extraction de Connaissance des
Données (ECD)
■ Comprend plusieurs phases dont le data mining

28
Le processus de KDD

29
Etapes du processus

⬥ 1. Compréhension du domaine d’application


⬥ 2. Création du fichier cible (target data set)
⬥ 3. Traitement des données brutes (data cleaning and preprocessing)
⬥ 4. Réduction des données (data reduction and projection)
⬥ 5. Définition des tâches de fouille de données
⬥ 6. Choix des algorithmes appropriés de fouille de données
⬥ 7. Fouille de données (data mining)
⬥ 8. Interprétation des formes extraites (mined patterns)
⬥ 9. Validation des connaissances extraites
⬥ (source : Fayyat et al., 1996, p. 1-34)

30
31
32
33
34
L'analyse factorielle🡺 plusieurs méthodes d'analyses de grands tableaux rectangulaires
de données, visant à déterminer et à hiérarchiser des facteurs corrélés aux données
placées en colonnes.

35
36
37
38
39
40
41
42
43
44
Apprentissage supervisé

⬥ Modèle inductif où l’apprenant considère un


ensemble d’exemples, et infère l’appartenance d’un
objet à une classe en considérant les similarités
entre l’objet et les éléments de la classe
⬥ Les classes sont étiquetées préalablement (image
médicale, sport…)
⬥ La plupart des algorithmes (classification,
estimation, prédiction) utilisent l’apprentissage
supervisé

45
Apprentissage non supervisé
⬥ Construction d’un modèle et découverte des
relations dans les données sans référence à
d’autres données
⬥ On ne dispose d'aucune autre information
préalable que la description des exemples
⬥ La segmentation, le regroupement (cluster), la
méthode des k-moyennes et les associations sont
des méthodes d’apprentissage non supervisées

46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
EXEMPLE

70
Exemple

71
Exemple

72
Exemple

73
Exemple

74
Exemple

75
Exemple

76
Exemple

77
Exemple

78
Exemple

79
Exemple

80
Exemple

81
82
Exemple

83
Exemple

84
Exemple

85
Exemple

86
Exemple

87
Exemple

88
Exemple

89
Exemple

90
Exemple

91
Exemple

92
Exemple

93
Exemple

94
Exemple

95
Exemple

96
Exemple

97
Exemple

98
Exemple

99
Exemple

100
Exemple

101
Exemple

102
Exemple

103
Exemple

104
Exemple

105
Exemple

106
Exemple

107
Exemple

108
Exemple

109
Exemple

110
Exemple

111
112
Règles d’association
Motivations et généralités
⬥ Approche automatique pour découvrir des relations /
corrélations intéressantes entre des objets
⬥ Règles de la forme: X ⇒ Y [support, confidence]
■ X et Y peuvent être composés de conjonctions

■ Support P(X ⇒ Y) = P(X et Y)

■ Confidence P(X ⇒ Y) = P(X et Y)/P(X)

⬥ Applications:
■ Utilisé pour analyser le panier de la ménagère

● Design des rayons dans les supermarchés, ventes croisées,


segmentation du marché, design des catalogues de ventes, ,
promotion, améliorer la structure d’un site web …
■ Détection des fraudes
■ Gestion des stocks
Méthode

⬥ Traiter toutes les combinaisons possibles des


attributs et de leurs valeurs pour créer toutes les
règles d’association possibles
⬥ Nombre de règles gigantesque
⬥ Amélioration: Garder les règles avec un support et
une confidence minimum
L’algorithme A Priori

⬥ Un item est une paire (attribut, valeur)


⬥ Un ensemble d’items regroupe des items (sans
duplication)
⬥ Principe de l’algorithme A Priori:
■ Génération d’ensembles d’items
■ Calcul des fréquences des ensembles d’items
■ On garde les ensembles d’items avec un support
minimum (minsup): les ensembles d’items fréquents
■ On ne génère et on ne garde que les règles avec une
confidence minimum
La propriété de fréquence des
ensembles d’items
⬥ On utilise certaines propriétés pour construire les ensembles
d’items
⬥ Les sous-ensembles d’un ensemble d’items fréquent sont aussi
des ensembles d’items fréquents
■ Par exemple, si {A,B} est un ensemble d’items fréquents, alors {A} et
{B} sont aussi des ensembles d’items fréquents
■ Plus généralement, les sous-ensembles de k-1 items d’un ensemble de k
items fréquent sont fréquents
● Ie: Tous les sous ensembles d’un itemset fréquent sont fréquents
● Si un itemset X n’est pas fréquent alors il n’existe pas d’itemset Y t.q X C Y qui
soit fréquent
Construction des ensembles
d’items
⬥ En utilisant la propriété de fréquence des ensembles
d’items, on voit qu’on peut construire les ensembles
d’items incrémentalement:
■ On commence avec les ensembles à un item
■ Un ensemble de k items peut être construit par jointure
d’un ensemble d’ensembles de k-1 items avec lui-même, et
en vérifiant la propriété de fréquence
119
120
121
122
Exemple

⬥ On suppose que les ensembles d’items sont composés


d’items ordonnés (par exemple léxicographiquement)
⬥ Considérons les ensembles de 3 items suivants:
■ S = {(A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D)}
⬥ S est joint avec lui-même
⬥ (A,C,D,E) n’est pas un ensemble de 4 items fréquent
(car (C,D,E) n’est pas dans S)
⬥ (A,B,C,D) est un ensemble de 4 items fréquent
Ensembles d’items et règles
⬥ Un ensemble d’items peut représenter plusieurs règles
⬥ Exemple:
■ A partir de {A,B,C}, on peut construire 7 règles avec le
même support:
● A ⇒ B, C
● B ⇒ A, C
● C ⇒ A, B
● A, B ⇒ C
● A, C ⇒ B
● B, C ⇒ A
● True ⇒ A, B, C
mais pas la même confidence
Générer les règles

⬥ Transformer les ensemble d’items en règles


de manière efficace
⬥ D’un ensemble de n items, on peut générer
2n –1 règles potentielles
⬥ On ne garde que les règles avec une
confidence minimum
Exemple complet
BD D
L1
C1
Parcours D

C2 C2
L2 Parcours D

C3 Parcours D L3
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
K-means

142
143
144
145
146
147
148
149
150
151
152

You might also like