Le Data Mining: Méthodologie

Définition et introduction Principales applications Méthodologie du DM Exemples de fonctionnement

1

1. Emergence du domaine 
Workshops 

1991, 1993, 1994 1995, 1996, 1997, 1998, 1999 

International Conf. on KDD and DM  

Data Mining and Knowledge Discovery Journal (1997)  Special Interest Group Knowledge Discovery in Databases (1999) de l¶Association for Computing Machinery (ACM)
2

Métaphore 
Par analogie à la recherche des pépites d ¶or dans un gisement, la fouille de données vise :  

à extraire des informations cachées par analyse globale à découvrir des modèles (³patterns´) difficiles à percevoir car:
le volume de données est très grand  le nombre de variables à considérer est important  ces ³patterns´ sont imprévisibles (même à titre d ¶hypothèse à vérifier) 

3

Définition 
Data mining 

ensemble de techniques d'exploration de données afin d'en tirer des connaissances (la signification profonde) sous forme de modèles présentés à l ¶utilisateur averti pour examen Données entrepôt Data mining
Découverte de modèles

Connaissances
Compréhension Prédiction
4

Découverte de modèles x1 Entrées x2 x3 MODELE c Confiance y Sortie x1 1 2 x2 10 20 x3 100 200 y alpha beta 5 .

Découverte et Exploitation Training Data Mining Model Data to Predict DM Engine Mining Model Mining Model DM Engine Predicted Data 6 .

Connaissances  Knowledge Discovery in Databases (KDD)   Processus complet d¶Extraction de Connaissance des Données (ECD) Comprend plusieurs phases dont le data mining analyses (distribution du trafic en fonction de l ¶heure) scores (fidélité d ¶un client). classes (mauvais payeurs) règles (si facture > 10000 et mécontent > 0.5 alors départ à 70%) 7  Exemples    .

Le processus de KDD 8 .

Interprétation des formes extraites (mined patterns) 9. Définition des tâches de fouille de données 6. Création du fichier cible (target data set) 3. Traitement des données brutes (data cleaning and preprocessing) 4.Etapes du processus          1. p. Compréhension du domaine d¶application 2. Fouille de données (data mining) 8. Choix des algorithmes appropriés de fouille de données 7. 1-34) 9 . Réduction des données (data reduction and projection) 5.. Validation des connaissances extraites  (source : Fayyat et al. 1996.

mais la méthode nécessite la connaissance de règles méthode permettant de tirer des conclusions à partir d'une série de faits généralisation un peu abusive indicateurs de confiance permettant la pondération 10  Induction : base du data mining    .Mécanismes de base  Déduction : base des systèmes experts   schéma logique permettant de déduire un théorème à partir d'axiomes le résultat est sûr.

2. Domaines d'application  De plus en plus de domaines        explosion des données historisées puissance des machines support nombreux datawarehouses OLAP limité nécessité de mieux comprendre rapports sophistiqués. prédictions aide efficace aux managers 11 .

Pharmacie  Analyse financière  Gestion de stocks  Maintenance  Contrôle de qualité 12 .Quelques domaines réputés  Analyse de risque (Assurance)  Marketing  Grande distribution  Médecine.

Exemples  Targeted ads  ³What banner should I display to this visitor?´ ³What other products is this customer likely to buy? ³Is this insurance claim a fraud?´ ³Who are those customers likely to churn?´ ³Should I approve the loan to this customer?´ 13  Cross sells   Fraud detection   Churn analysis   Risk Management  .

Churn Analysis  Application de télécom  Bases de données des clients et des appels  Fichiers des réclamations  Qui sont les clients le plus susceptibles de partir ?  Application de techniques de DM  Fichiers de 1000 clients les plus risqués  600 ont quittés dans les 3 mois 14 .

Trading Advisor  Application boursière  conseil en achat / vente d'actions historique des cours portefeuille client  Données de base       Analyse du risque Analyse technique du signal Conseils d'achat ± vente Mise à disposition sur portail Web 15 .

Méthodologie -1  1.3. Identifier le problème      2. Préparer les données      cerner les objectifs trouver les sources définir les cibles vérifier les besoins préciser les sources collecter les données nettoyer les données transformer les données intégrer les données 16 .

Méthodologie .2  3. Utiliser le modèle   17 . Suivre le modèle   bâtir des estimateurs corriger et affiner le modèle  4. Explorer des modèles     choisir une technique échantillonner sur un groupe valider sur le reste (5% à 1/3) calculer le d ¶erreurs observer la réalité recommander des actions  5.

Explorer des modèles : SEMMA  Sampling = Échantillonner  tirer un échantillon significatif pour extraire les modèles devenir familier avec les données (patterns) ajouter des informations. grouper des attributs construire des modèles (statistiques. réseaux de neuronnes. règles associatives. coder. valider. arbres de décisions. répondre aux questions 18  Exploration = Explorer   Manipulation = Manipuler   Modelling = Modéliser   Assessment = Valider  . «) comprendre. expliquer.

80 19 .Validation d¶un modèle  Matrice de confusion  comparaison des cas observés par rapport aux prédictions  exemple : prédiction de factures impayées Prédit Observé Payé Payé Retardé Impayé Total 80 1 5 86 Retardé 15 17 2 34 Impayé 5 2 23 30 Total 100 20 30 150  Validité du modèle  nombre exacte (diagonale) / nombre totale = 120/150 = 0.

En anglais recall. Rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents. En anglais precision. S l'ensemble des objets qu'un processus considère comme ayant une propriété recherchée. P et R respectivement la précision et le rappel du système :    rappel   Soient    P=|S R=|S V|/|S| V|/|V| 20 . V l'ensemble des objets qui possèdent effectivement cette propriété.Définition de Mesures  précision  Rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés.

Mesures  Précision (Precision)  = NbTrouvésCorrects/(1+NbTotal)  Bruit (Noise)   = NbTrouvésIncorrects/(1+NbTotal) = 1.Précision  Rappel (Recall)  = NbTrouvésCorrects/(1+NbValide)  F-mesure  = 2*(précision*rappel)/(précision+rappel) 21 .

g..g. arbres de décision.. réseaux de neurones) des bases de données (e.g.. réseaux bayésiens) de l'analyse de données (e..g. analyse en composantes) de l'intelligence artificielle (e.Principales Techniques  Dérivées     des statistiques (e. règles associatives)  Appliquées aux grandes bases de données  Difficultés :    passage à l'échelle et performance fonctionnement avec échantillon > qq milliers présentation et validation des résultats 22 .

analyse d'associations. associations. . groupage..4. réseaux de neurones. classification. groupage.. statistiques. arbres de décision. analyse de texte libre Statistiques. réseaux de neurones  Oracle 10g ODM  SQL Server DM  DB2 V8  SAS de SAS   SPSS de SPSS  23 .). Quelques produits  Intelligent Miner d'IBM  modélisation prédictive (stat. segmentation. détection de déviation.

SAS 24 .

INPUT  Choix des variables 25 .

SAMPLING  Choix du type d'échantillon 26 .

INSIGHT  Analyse des données en 4D 27 .

TRANSFORM  Transformation pour préparer 28 .

PARTITION  Création de partition d'exploration parallèle 29 .

REGRESSION  Sélection de la méthode de régression 30 .

DECISION TREE  Construction d'un arbre par G2 31 .

NEURONES  Spécification d'un réseau de neurones 32 .

ASSESSMENT  Validation des résultats 33 .

Approches  De multiples approches:      Statistiques Classification Clustering Règles associatives « 34 .

Table = i able . n J . ... n 1 .. . p 1 . 1 . Table = i . .... 1 .Méthodes d'analyse 1 . . p 1 . p Points dans Rp Points dans Rn 35 . n J ... J .. ... Table = i . ..

Familles de méthodes Nuage de points Visualisation dans Le meilleur espace réduit METHODES STATISTIQUES ET FACTORIELLES Regroupement dans tout l'espace METHODES DE CLASSIFICATION. SUPERVISEE OU NON « 36 .

Méthodes statistiques  Quelques techniques de base  A la limite du DM  Calculs d'information sophistiqués 37 .5.

autour de sa valeur moyenne.Fonctions Statistiques  Espérance  permet de calculer la moyenne pondérée d'une colonne pi = 1/N par défaut traduit la dispersion de la distribution de la v. Permet d'éliminer le facteur dimension 38  Variance   Variable centrée réduite  .a.

MIN.Diagrammes en bâtons Catégorie d'employé 400  Comptage de fréquence  300 COUNT Fréquence 200  Extension aux calculs d'agrégats  100 0 Secrétariat Cadre Responsable AVG. MAX. « 100 80 60 40 20 0 Catégorie d'employé  Possibilité d'étendre au 3D  Apporte une vision synthétique N o rth W est East 1 s t 2 n d 3 rd Q tr Q tr Q tr 4 th Q tr East W est N o rth 39 .

0 76.3 276.7 4.0 4 .0 7.3 6.0 94.0 370. 80.Tableaux croisés (Vision 2D du Datacube) Tableau cr i é Catég rie d'employé * Sexe de l'employé * Classe mi oritaire ? Cl ss mi orit ir ?: No Eff ctif Catégori d' m loyé S crét ri t S x d l' m loyé ot l S x d l' m loyé ot l S x d l' m loyé ot l S x d l' m loyé ot l M sculi Fémi i M sculi Fémi i M sculi Fémi i M sculi Fémi i 0 66 276 4 0 4 70 0 80 94 76 370 Eff ctif théoriqu 44.7 3 .9 38.0 Cadr R s o sabl otal Effectif théorique = calculé par une loi de distribution (uniforme) 40 .

Corrélation  Covariance   La covariance peut être vue comme le moment centré conjoint d'ordre 1 de deux v.a. alors leur covariance est nulle (mais la réciproque n'est pas vraie en général). sont indépendantes. Si les deux v. Elimine le facteur dimension mesure la qualité de la relation linéaire entre deux variables aléatoires 41  Coefficient de corrélation   .a.

91 * saldeb R-Deux = 0.000 # # $40.000 Salaire actuel = 1928.77 199 # Régression linéaire $120.000 $60.000 $40.21 + 1.000 $80.Droite de régression $160.000 Salaire d'embauche 42 .000 $20.000 Y=aX+b 120 70 # # ## # # # # # # # ## # # # ## # # # # # # # # # ## # # # ## ## # # # # # # # # # # # ### # ## # ## # # # ## # # # ## # # # # # # # ## # # # # # ## # ## # # # ## # # # # # ## # ## # ## # # # # ## # # ## # # #### # ## ### ### # ## # # # ## # ## # # # # ### # # # ## # # # ##### # # # # ######## # # # ## # ## ##### # #### # ## ## # #### # #### ### # ### # #### # # #### # ##### ### ### # ### ## ## ## # # ### ## # # ## # ## ## # # # # # # Salaire actuel $80.

Test du G2  Détermine l'existence d'une dépendance entre deux variables  Exemple : salaire d'embauche. niveau d'étude  Compare la distribution des variables par rapport à une courbe théorique supposant l'indépendance 43 .

« Comparaison « 44 . Moyenne mobile.De nombreuses fonctions       Test t sur moyenne ANOVA Analyses de variance sophistiquées Corrélation partielle Régresion logistique Séries chronologiques   Lissage exponentiel.

Calculs en SQL  Introduction de fonctions d'agrégats       AVG = moyenne MAVG = moyenne mobile STDDEV = écart type VARIANCE = variance COVARIANCE = covariance « SELECT COVARIANCE(SALAIRE_ACTU. SALAIRE_EMB) FROM EMPLOYEE WHERE GRADE = "ingénieur" GROUP BY SEXE 45  Exemple     .

.Statistiques: Conclusion  Calculs statistiques sur variables     Mono ou bi-variées Résumé des données Observation de dépendances Peu de modèles prédictifs .. Extensions cube et rollup Extensions avec fonctions d'agrégats 46  La plupart sont faisables avec SQL OLAP   .

6. Conclusion  Le data mining vise à découvrir des modèles à partir de grandes bases de faits connus (datawarehouse)  Le processus de construction de modèles est complexe      Questions ?  Quoi de nouveau par rapport à l'IA et aux statistiques ? préparer les données modéliser 1/3 de la base valider sur 2/3 expérimenter plusieurs modèles 47 .

écart-ty p e) O u tils d 'in terp rét° d e classes M éth o d es facto rielles (A C P ) C o rrélatio n s A n aly se facto rielles d es co rr. -G én èr° d e règ les -C o n str° d 'arb re d e d écisio n -R aiso n n em en t à b ase d e cas _ A p p ren tissag e n o n su p erv isé -C lassif° co n cep tu elle A p p ren tissag e n o n su p erv isé -G én éralisatio n A p p ren tissag e n o n su p erv isé -G én éralisatio n -R ech erch e d 'asso ciatio n s _ 48 . É lém en taire (h isto g ram m e. m o y . (A F C ) R ésea u x b ay ésien s T est stat su r les écarts IA F o rm alism e d e la lo g iq u e In d u ctio n /d éd u ctio n A p p ren tissag e su p erv isé/ex . Stat.. IA DM R ech erch e d e règ les d e classem en t R ég ressio n C lassificatio n au to m atiq u e D escrip tio n sy n th étiq u e R ech erch e d e d ép en d an ces D étectio n d e d év iatio n s S ta t.DM. T ab leau in d iv id u -v ariab le C alcu ls n u m ériq u es M éth o d es d e d iscrim in atio n R éseau x d e n eu ro n n es S eg m en tatio n M éth o d es d e rég ressio n R éseau x d e n eu ro n n es C lassif° au to m atiq u e h iérarch iq u e P artitio n n em en t R éseau x d e n eu ro n n es S tat.

Sign up to vote on this title
UsefulNot useful