You are on page 1of 28

Data Mining, fouille de donnes: Data Mining, fouille de donnes: Concepts et techniques Concepts et techniques

Marius Fieschi Facult de Mdecine de Marseille

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Data Mining, fouille de donnes: Data Mining, fouille de donnes: Concepts et techniques Concepts et techniques

Ce cours est trs proche du cours diffus sur le net par Jiawei Han et Micheline Kamber Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada http://www.cs.sfu.ca Quils en soient remercis

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Introduction Introduction

Motivation: Pourquoi le data mining (fouille de donnes)? Quest-ce que le data mining? Fouille de donnes: Sur quel type de donnes? Fonctionnalits de la fouille de donnes Classification des systmes de data mining

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Pourquoi la fouille de donnes? Pourquoi la fouille de donnes?

Lexplosion des donnes


Les outils de collecte automatique des donnes et les bases de donnes conduisent dnormes masses de donnes stockes dans des entrepts

Submergs par les donnes, manque de connaissance! Solution: Entrepts de donnes et fouille de donnes
Entrepts de donnes et analyse on-line Extraction de la connaissance intressante (rgles, rgularits, patterns, contraintes) partir de grandes bases de donnes

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Evolution de la technologie des bases de Evolution de la technologie des bases de donnes donnes
1970: Bases de donnes relationnelles (RDBMS) 1980: RDBMS, modles de donnes avancs (extension du relationnel, OO, ...) et DBMS orients application (spatial, scientifique, ) 1990 - 2000: Fouilles de donnes et entrepts de donnes, BDD multimdia, bases de donnes Web

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Quest-ce que la fouille de donnes? Quest-ce que la fouille de donnes?

Fouille de donnes (dcouverte de connaissance dans de grandes bases de donnes):


Extraction dinformation intressante (non triviale, implicite, non connue prcdemment et potentiellement utile) ou de patterns Dcouverte de connaissance (mining) dans des Bdd, extraction de connaissance, analyse de donnes/pattern. Propose des rsums dinformation (rapports multidimensionnels, rsums statistiques)

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Data Mining: Un processus de dcouverte de connaissance Data Mining: Un processus de dcouverte de connaissance
Evaluation du modle Data Mining Donnes pertinentes Data Warehouse Data Cleaning Intgration de donnes Slection Connaissance

Bases de donnes
Mars 2005 M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Etapes dun processus de dcouverte de connaissance Etapes dun processus de dcouverte de connaissance
Connatre le domaine dapplication
Connaissance pertinente dj tablie et buts de lapplication

Slection des donnes cibles Data cleaning, pr traitement Rduction de donnes et transformation: Choix des fonctions du data mining
Synthse, rsum, classification, rgression, association, clustering.

Choix des algorithmes de fouille Data mining:


Recherche des modles intressants

Evaluation des pattern et prsentation de la connaissance


Visualisation, transformation, etc.

Utilisation de la connaissance
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

Architecture dun systme type de data mining Architecture dun systme type de data mining
Interface utilisateur

Evaluation du Pattern Moteur de Data mining Serveur de base de donnes ou dentrept de donnes Filtrage Base de connaissance

Data cleaning, intgration

Bases de donnes
Mars 2005 M. Fieschi Data mining

Data Warehouse
Master EISIS Fvrier 2006

Data mining: Sur quel type de donnes? Data mining: Sur quel type de donnes?

Bases de donnes relationnelles Data warehouses / entrepts de donnes Rservoir de donnes


Orientes Objet Bases de donnes spatiales Donnes chronologiques et donnes temporelles Bases textuelles et multimdia WWW

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Intrt des modles (patterns) dcouverts Intrt des modles (patterns) dcouverts
Un systme de data mining gnre des milliers de patterns, tous ne sont pas intressants. Intrt
Un pattern est intressant si il est
facilement compris par les humains, valide sur donnes nouvelles ou testes avec un certain degr de certitude, potentiellement utile, nouveau, ou validant certaines hypothses que lon cherche confirmer

Objectif vs. subjectif


Objectif: bas sur des statistiques et des structures de patterns Subjectif: bas sur des croyances des utilisateurs

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

La fouille de donnes La fouille de donnes

Technologie des bases de donnes

Statistiques

Apprentissage Machine Learning

Fouille de donnes

Visualisation

Science de linformation

Autres disciplines

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

La fouille de donnes La fouille de donnes

Bases de donnes fouiller


Relationnelles, transactionnelles, orientes objet, spatiales, sries chronologiques, textuelles, multi-media, WWW, etc.

Connaissance fouiller
Caractrisation, discrimination, association, classification, dviation et analyse des outliers

Techniques utilises
Bases de donnes, data warehouse (OLAP), machine learning, statistiques, visualisation, rseaux de neurones.

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Entrepts de donnes (data warehousing) Entrepts de donnes (data warehousing) et technologies pour la fouille de donnes et technologies pour la fouille de donnes (data mining) (data mining)

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Data Warehouse: les applications Data Warehouse: les applications


Trois types dapplications pour les data warehouse

Traitement de linformation
Pour requtes, analyse statistique de base, rapports, tableaux croiss, diagrammes, graphiques

Traitement analytique ++
Analyse multidimensionnelle des donnes

Data mining
Dcouverte de connaissances et de modles Pour raliser des classifications, des analyses de prdiction.

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Data Warehousing et technologies pour la fouille Data Warehousing et technologies pour la fouille de donnes de donnes
Quest-ce quun data warehouse? Un modle de donnes multi dimensionnelles Architecture du data warehouse Implmentation dun data warehouse Du data warehousing la fouille de donnes

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Quest-ce que le Data Warehouse? Quest-ce que le Data Warehouse?

Une base de donnes daide la dcision qui est entretenue de manire spare de la base de donnes oprationnelle de lorganisation Aide au traitement de linformation en fournissant une plateforme de donnes historiques consolides pour lanalyse. Data warehousing: Le processus de construction et dutilisation du data warehouse

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Lapproche Subject-Oriented du data Lapproche Subject-Oriented du data warehouse warehouse


Organis autour des sujets majeurs, tels que personne, client, Sujet= Faits + dimensions Centr sur la modlisation et lanalyse de donnes pour les dcideurs, non pour des oprations quotidiennes Fournit une vue simple, concise sur des sujets particuliers en excluant des donnes inutiles dans le processus daide la

dcision Construit par intgration de sources de donnes multiples et htrognes


Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

Le schma en toile Le schma en toile


Une table de faits encadres par N tables de dimensions Exemple

Produits
Priodes
IDper anne trimestre mois jour

Table de faits ventes priode produit magasin units_vendues montant_ventes taxes_ventes

IDprod description couleur taille fournisseur

Magasins
IDmag nom ville dpartement pays

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Data Warehouse Data Warehouse


La consolidation des donnes
Application de techniques de data cleaning et de data intgration

La cohrence des donnes doit tre assure


Nommer les rgles de codage, les mesures, les attributs, pour les diffrentes sources de donnes

La conversion des donnes intgres au data

warehouse Limportance du temps pour le data warehouse


Toutes les structures cls dans le data warehouse contiennent un lment de temps, explicitement ou implicitement

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Data Warehouse Data Warehouse

La mise jour de donnes oprationnelles nest pas ralise dans le data warehouse
Ne demande pas de transactionnel et mcanismes de contrle daccs concurrentiels Demande uniquement deux oprations en accs aux donnes: Chargement initial de donnes et accs aux donnes.

Intgration traditionnelle de bases de donnes (bdd) htrognes:


Construction de wrappers/mdiateurs au dessus des bdd htrognes

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Deux types de traitements: OLAP / OLTP


OLTP (on-line transaction processing)
Tche majeure des Bdd relationnelles traditionnelles Oprations quotidiennes enregistres.

OLAP (on-line analytical processing)


Tche majeure des systmes de data warehouse Analyse de donnes et dcision

Le data warehouse: OLAP

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

OLTP vs. OLAP OLTP vs. OLAP


OLTP Utilisateurs Fonction Conception de la Bdd Donne Usage Accs Unit de travail employ, professionnel Oprations au jour le jour Oriente application courante, dtaille, simple relationnel rptitif read/write index/hash sur cl primaire court, transaction simple OLAP Analyste connaissance Aide la dcision Oriente sujet historique, rsume, multidimensionnelle, intgre, consolide ad-hoc multiples Requte complexe millions centaines 100GB-TB requte

Enregistrements accs. dizaines Nb utilisateurs Taille de la Bdd Mtrique milliers 100MB-GB transaction

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Pourquoi sparer le Data Warehouse?


Haute performance pour les deux systmes
DBMS: performance pour OLTP

mthodes daccs, index, accs concurrentiels, restauration


Warehouse: performance pour OLAP

requtes complexes, vue multidimensionnelle, consolidation

Diffrentes fonctions et diffrentes donnes


Donnes manquantes:

Laide la dcision (AAD) demande des donnes historiques. Les Bdd oprationnelles ne les grent pas toujours Consolidation de donnes: LAAD demande la consolidation (agrgation, rsum) de donnes issues de sources htrognes Qualit des donnes: Habituellement diffrentes sources utilisent des reprsentations de donnes non cohrentes, des codes et des formats rconcilier

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Les cubes de donnes Les cubes de donnes

Un data warehouse est bas sur un modle de donnes multidimensionnel qui voit les donnes sous forme de data cube Un data cube , comme par exemple les ventes, permet de modliser et de voir les donnes relatives aux ventes en de multiples dimensions

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Une hirarchie de concepts: Dimension (lieu) Une hirarchie de concepts: Dimension (lieu)
Tous hpital Timone Tous ... Nord

service

neurochirurgie ... cardiologie

cardiologie ... obsttrique

UF

consultation

...

hospitalisation ...

HdJ

Mars 2005

M. Fieschi

Data mining

Master EISIS

Fvrier 2006

Donnes multidimensionnelles Donnes multidimensionnelles


Volume des factures, une fonction de lactivit, mois, et de lhpital
Dimensions: Activit, Lieu, Temps Synthses hirarchiques MCO Chir. Hpital Anne

H pi ta

Service Trimestre UF Mois Semaine Jour

Activit

Actes

Mois
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006

Un exemple de cube de donnes Un exemple de cube de donnes


iv it
1trim 2trim 3trim

Date

Conception Nord somme

Mars 2005

M. Fieschi

Data mining

Master EISIS

Etablissement
Fvrier 2006

Chir. Md. Obst. somme

4trim

Total annuel activit de chir. Timone somme Timone

Ac t