You are on page 1of 129

Master M2 (Option F3I)

Les entrepts de donnes

Data Mining et Apprentissage Automatique Cours de Master F3I 2008-2009

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

I f Informatique ti de d Production P d ti

Donnes oprationnelles (de production) prod ction) activit constante compose de modifications et d'interrogations frquentes des bases de donnes par de nombreux b utilisateurs tili t : ajouter j t une commande, d modifier difi une adresse de livraison, rechercher les coordonnes d'un client, etc. l'intgrit i i des donnes est ncessaire i pour ce genre d'applications (il faut par exemple, interdire la modification simultane d'une mme donne par deux utilisateurs tili t diff diffrents). t) La cohrence assure par les systmes de production est toute relative. Elle se contrle au niveau de la transaction l lmentaire t i mais i pas au niveau i global l b l et t des d activits ti it de d l'organisation.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

I f Informatique ti de d Production P d ti

Donnes oprationnelles (de production) prod ction) Base sur Les systmes transactionnels temps rel, OLTP (On-line Transaction Processing) garantissent l'intgrit des d donnes. Les utilisateurs accdent aux donnes de la base par de trs courtes transactions atomiques et isoles. La priorit est donne en premier lieu l'enregistrement rapide, sr et efficace des donnes. L'un L un des formalismes les plus utiliss pour la reprsentation conceptuelle des systmes d'information est le modle EntiteAssociation

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

S t Systmes Dcisionnels D i i l

d'information, en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) :

Dfinition : Informatiq Informatique e dcisionnelle (Management (M t du d systme t

les moyens, les outils et les mthodes qui permettent de collecter, consolider, modliser et restituer les donnes, matrielles ou immatrielles, immatrielles d d'une une entreprise en vue d'offrir une aide la dcision et de permettre aux responsables de la stratgie d'entreprise davoir une vue densemble d ensemble de lactivit l activit traite traite..

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

C Caractristiques t i ti d des S Systmes t Dcisionnels D i i l

Possibilit de poser une grande varit de questions au systme, certaines prvisibles et planifies comme des tablea de bord et d'a tableaux d'autres tres imprvisibles. impr isibles permettre l'utilisateur d'effectuer les requtes qu'il souhaite, par lui-mme, sans l'intervention de programmeur. Il sera souvent ncessaire de filtrer, d'agrger, de compter, sommer et de raliser des statistique (moyenne, crattype, .) )

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

C Caractristiques t i ti d des S Systmes t Dcisionnels D i i l

La structure str ct re logiq logique e doit tre pr prvue e po pour r rendre aussi a ssi efficace que possible toutes ces requtes. Pour y parvenir, il est ncessaire d'introduire de la redondance dans les informations Stockes en mmorisant des calculs intermdiaires. On rompt donc avec le principe de non redondance des bases de production. la cohrence requise doit tre interprtable par l'utilisateur. Les systmes d'informatique dcisionnelle doivent donc assurer plutt l tt une cohrence h globale l b l des d donnes. d Pour P ce faire, leur alimentation doit tre une opration rflchie et planifie dans le temps.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

C Caractristiques t i ti d des S Systmes t Dcisionnels D i i l

Les transferts de donnes du d systme s stme oprationnel Vers le systme dcisionnel seront rguliers avec une priodicit bien choisie dpendante de l'activit de l'entreprise. Chaque transfert sera contrl avant d d'tre tre diffus. diffus Aucune information n'y est jamais modifie. On mmorise toutes les donnes sur une priode dtermine, les donnes ne seront jamais remises jour car toutes les vrifications utiles la cohrence globale sont procdes lors de l'alimentation. L' tili ti L'utilisation se rsume d donc un chargement h t priodique, i di puis des interrogations non rgulires, non prvisibles, parfois longues excuter.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

Tout To t systme s stme d'information dcisionnel (SID) telle que q e le sont les datawarehouses assurent quatre fonctions fondamentales, savoir la collecte, ll t l'intgration, la diffusion et la prsentation des donnes. ces quatre fonctions s'ajoute une fonction de contrle du SID lui-mme, lui-mme ll'administration administration.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

L collecte La ll t

La collecte des donnes (parfois appele data pumping) est l'ensemble des tches consistant dtecter, slectionner, extraire et filtrer les donnes brutes issues des environnements pertinents compte tenu du primtre du SID. Les sources de donnes internes et/ou externes tant souvent htrognes tant sur le plan technique que sur le plan smantique (donnes complexes) cette fonction est la plus dlicate mettre en place dans un systme dcisionnel complexe, car un excdent de donnes, un dfaut de fiabilit ou un trop mauvais rapport signal/bruit sont pires que l'absence de donnes.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

10

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

Elle s'appuie s'app ie notamment s sur r des o outils tils d'ETL (extract(e tract transform-load pour extraction-transformationchargement). La fonction de collecte joue galement, au besoin, un rle de recodage. Une donne reprsente diffremment d'une source une autre iimpose le choix i d'une reprsentation unique pour les futures analyses.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

11

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

Li t Lintgration ti

Lintgration des donnes, c'est--dire leur regroupement en un ensemble technique, logique et smantique homogne appropri aux besoins de l'organisation ; elle consiste concentrer les donnes collectes dans un espace unifi, dont le socle informatique essentiel est l' t l'entrept t de d donnes. d l lment t central t ld du di dispositif, itif il permet aux applications dcisionnelles de bnficier d'une source d'information commune, homogne, normalise li et t fi fiable, bl susceptible tibl d de masquer lla di diversit it de l'origine des donnes.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

12

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

L diffusion La diff i

La diffusion, ou la distribution d'informations labores partir des donnes dans des contextes appropris aux besoins des individus ou des groupes de travail utilisateurs. c'est--dire elle met les donnes la disposition des utilisateurs, selon des schmas correspondant au profil ou au mtier ti de d chacun, h sachant h t que l'accs l' direct di t l'entrept de donnes ne correspondrait gnralement pas aux besoins d'un dcideur ou d'un analyste.

29/11/2009

Ecole Doctorale (Data Mining et ...)

13

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

L prsentation La t ti

Cette quatrime fonction, la plus visible pour l'utilisateur, rgit les conditions d'accs de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrle d'accs, la prise en charge des requtes, la visualisation des rsultats sous une forme ou une autre. Elle utilise tili t toutes t lles t techniques h i d de communication i ti possibles ibl (outils bureautiques, requteurs et gnrateurs d'tats spcialiss, infrastructure web, tlcommunications mobiles, bil etc.). t )

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

14

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

L d i i t ti Ladministration

Ladministration, qui gre le dictionnaire de donnes et le processus d'alimentation de bout en bout, car le systme dinformation dcisionnelle doit tre lui-mme pilot. C'est la fonction transversale qui supervise la bonne excution de toutes les autres. Elle pilote le processus de mise jour d donnes, des d l d la documentation t ti sur les l donnes d (les (l mta t donnes), la scurit, les sauvegardes, la gestion des incidents.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

15

F Fonctions ti essentielles ti ll de d lInformatique lI f ti Dcis. D i

R Remarque

En pratique, les fonctions de collecte et d'intgration sont troitement lies entre elles, et sont gnralement associes au datawarehouse. De mme, diffusion et prsentation sont des fonctions j tournes vers l'utilisateur et son fortement "orientes sujet", mtier, manipulant des contenus forte valeur ajoute informationnelle et non des donnes brutes; elles sont donc fortement imbriques logiquement et techniquement

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

16

Le contexte

Besoin: prise de dcisions stratgiques et politiques Pourquoi: besoin de ractivit face la concurrence Qui: les dcideurs (non informaticiens) Comment: en rpondant aux demandes danalyse d analyse
Qui sont mes Q meilleurs clients? O placer ce produit dans les rayons?

Quelle catgorie de clients achtent un types de produit ?


29/11/2009 Master F3I (Data Mining et Apprentissage Automatique)

A combien slvent l t mes ventes journalires?

17

L donnes Les d utilisables tili bl par les l dcideurs d id

Donnes oprationnelles (de production) prod ction)


Bases de donnes (Oracle, SQL Server) Fichiers, P Paye, gestion ti d des RH, RH gestion ti des d commandes d

Caractristiques de ces donnes:


Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, d donnes surabondantes b d t pour lanalyse l l Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation d historisation systmatique

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

18

Problmatique

C Comment rpondre d aux demandes d d des d dcideurs? d id ?

En donnant un accs rapide et simple linformation stratgique

Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

19

Le processus de prise de dcision

Champs dapplication d application des systmes dcisionnels Dfinir le Rassembler Analyser les tablir des Dcider solutions problme les donnes donnes p Temps p de p prise dune dcision

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

20

Le processus de prise de dcision

Prise de d i i dcision

Bases de production

Data warehouse

Base multi dimensionnelle

Prdiction / simulation

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

21

Domaines dutilisation des DW


B Banque

Sant

Risques dun prt, prime plus prcise pidmiologie id i l i Risque alimentaire Ciblage d Cibl de clientle li tl Dterminer des promotions Ad Adquation ti demande/production d d / d ti Risque li un contrat dassurance (voiture)

Commerce

Logistique

Assurance

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

22

Quelques mtiers du dcisionnel

St t i Performance Strategic P f Management M t

Dterminer et contrler les indicateurs cl de la performance de lentreprise Planifier, analyser et diffuser linformation financire. Mesurer et grer les risques

Finance Intelligence

Human Capital Management (gestion de la relation avec les employs)

Aligner g les stratgies g RH, les processus p et les technologies. g Amliorer la connaissance client, identifier et prvoir la rentabilit client, accroitre lefficacit l efficacit du marketing client Classifier et valuer lensemble des fournisseurs. Planifier et piloter la stratgie Achat. Achat
Master F3I (Data Mining et Apprentissage Automatique) 23

Customer Relationship Management (gestion de la relation client)

Supplier Relationship Management (gestion de la relation fournisseur)

29/11/2009

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

24

Dfinition dun DW

W. H. Inmon (1996): Le data Warehouse est une collection de donnes orientes i t sujet j t, intgres i t , non volatiles l til et t historises hi t i , organises pour le support dun processus daide la dcision Principe: mettre en place une base de donnes utilise des fins danalyse

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

25

Les 5 caractristiques des data warehouse

5 caractristiques des DW :

Orientes sujet Donnes intgres Donnes non volatiles Donnes dates ou archives historises Donnes multidimensionnelles

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

26

Les 5 caractristiques des data warehouse

1.

Donnes orientes sujet (mtiers ou business):


Regroupe les informations des diffrents mtiers Ne tiens pas compte de lorganisation fonctionnelle des donnes

Ass. Vie

Ass. Auto

Ass. Sant Client Police

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

27

Les 5 caractristiques des data warehouse

Lobjectif dun datawarehouse est la prise de dcisions autour des activits majeures de lentreprise. Dans un datawarehouse, les donnes sont ainsi structures par thmes par opposition celles organises, dans les y de p production, ,p par p processus fonctionnel. systmes Lintrt de cette organisation est de disposer de llensemble ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de lentreprise.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

28

Les 5 caractristiques des data warehouse

On peut ainsi passer dune vision verticale de lentreprise une vision transversale beaucoup plus riche en informations. On dit que le Datawarehouse est orient mtier , en rponse aux diffrents mtiers de lentreprise quil est cens prparer lanalyse

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

29

Les 5 caractristiques des data warehouse


2.

Donnes i intgres:

Normalisation des donnes Dfinition d dun un rfrentiel unique

h,f 1,0 homme femme homme, DA FF FS


29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 30

h,f

EUR

Les 5 caractristiques des data warehouse

Les donnes en provenance de sources htrognes ou d'origines diverses (y compris des fichiers externes de cotation ou de scoring). Il sagit alors dintgrer les donnes en provenance de diverse sources afin de les homogniser et de leur donner un sens unique, comprhensible par tous les utilisateurs. La transversalit recherche sera dautant plus efficiente que le systme dinformation sera rellement intgr. Cette intgration ncessite une forte normalisation, une bonne gestion des rfrentiels et de la cohrence, une parfaite matrise de la smantique et des rgles de gestion sappliquant pp q aux donnes manipules. p Ce nest quau prix dune intgration russie que lon peut offrir une vision homogne et cohrente de lentreprise p via ses indicateurs

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

31

Les 5 caractristiques des data warehouse


3 3.

Donnes non volatiles


Traabilit des informations et des dcisions prises Copie des donnes de production

Bases de production Ajout Suppression

Entrepts de donnes

Accs Modification Chargement

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

32

Les 5 caractristiques des data warehouse


stables, en lecture seule, non modifiables. Afin de conserver la traabilit des informations et des dcisions p prises, les informations stockes au sein du Datawarehouse ne doivent pas disparatre. Une mme requte lance plusieurs fois, et ce des mois dintervalle, , sur une mme population p p doit restituer les mmes rsultats. ds lors quune donne a t qualifie pour tre introduite au sein du Datawarehouse, elle ne peut ni tre altre, ni modifie, ni supprime (ou en tout cas en de dun certain dlai de purge). Elle devient, de fait, partie prenante de lhistorique p q de lentreprise. p

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

33

Les 5 caractristiques des data warehouse


4 4.

Donnes dates ou archives historises


Les donnes persistent dans le temps Mise en place dun rfrentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006

Base de production

Ali Samir

Alger Stif 1 Ali

Ali Samir

Msila Stif

p Entrept de donnes

Alger Stif Msila M sila


34

1 2

2005 2006

M i Mai Juillet

1 Samir 2 Ali

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

Les 5 caractristiques des data warehouse

Avec une conservation de l'historique et de son volution pour permettre les analyses comparatives (par exemple, d'une anne sur l'autre, etc.). La non-volatilit permet lhistorisation. Dun point de vue fonctionnel, cette proprit permet de suivre dans le temps lvolution des diffrentes valeurs des indicateurs analyser. De fait, dans un Datawarehouse un rfrentiel de temps est ncessaire. Cest laxe temps ou priode

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

35

Les 5 caractristiques des data warehouse


5 5.

Donnes mutidimentionnelles

prsentes selon diffrents axes d'analyse ou dimensions (par exemple : le temps, les types ou segments de clientle, les diffrentes gammes de produits, produits les diffrents secteurs rgionaux ou commerciaux, etc.). Le Datawarehouse est conu pour contenir les donnes en adquation d ti avec les l b besoins i actuels t l et t futurs f t de d lorganisation, et rpondre de manire centralise tous les utilisateurs.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

36

SGBD et DW
Service commercial
BD prod

OLTP: On-Line Transactional Processing

Service Financier
BD prod

Service livraison
BD prod

Clientle
H I S T O R I Q U E
37

Data Warehouse
O OLAP: On-Line O e Analitical Processing Clientle

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

OLTP VS DW OLTP
Orient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives Utilisateurs nombreux, administrateurs/oprationnels Temps dexcution: court

DW
Orient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques Utilisateurs peu nombreux, manager Temps dexcution: long

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

38

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

39

Datamart

Sous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers ti
Datamarts du service Marketing

DW de lentreprise
29/11/2009

Datamart du service i R Ressources Humaines


40

Master F3I (Data Mining et Apprentissage Automatique)

Intrt des datamart

Nouvel environnement structur et format en fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DW

Plus facile comprendre comprendre, manipuler Amlioration des temps de rponse

Utilisateurs U sa eu s plus p us cibls: c b s: DM plus p us facile ac e d dfinir

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

41

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

42

Architecture gnrale
Zone de prsentation

Zone de prparation
E X T R A C T I O N

Zone de stockage C H A R G E M E N T

Transformations: Nettoyage Standardisation

Data warehouse

Requtes Rapports Visualisation Data Mining

Sources de donnes

Datamart

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

43

Les flux de donnes

Flux entrant

Extraction: multi-source, htrogne Transformation: filtrer, filtrer trier trier, homogniser, homogniser nettoyer Chargement: insertion des donnes dans lentrept Mise disposition des donnes pour les utilisateurs finaux

Flux sortant:

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

44

Les diffrentes zones de larchitecture

Z Zone de d prparation ti (Staging (St i area) )


Zone de stockage (DW (DW, DM)


Zone temporaire de stockage des donnes extraites Ralisation des transformations avant linsertion dans le DW: Nettoyage N tt Normalisation Donnes souvent dtruites aprs chargement dans le DW On y transfre les donnes nettoyes Contient les donnes de lentreprise Zone daccs aux donnes contenues dans le DW Peut contenir des outils danalyse programms: Rapports Requtes

Zone de prsentation

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

45

1- Architecture deux niveaux

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

46

1- Architecture deux niveaux

Dans cette architecture nous retrouvons : Le staging area : Le staging area est temporaire il sert stocker les donnes extraites (E) des systmes sources. C'est dans le staging area que ll'on on effectue les diffrentes transformations (T) savoir : Le nettoyage des donnes, le merge, la standardisation, le dduplication... des donnes. Les donnes dans le staging g g area sont dtruites une fois le chargement des data marts termin en succs. Le Datawarehouse : Les donnes du staging area sont transfres vers le datawarehouse (L). Il est important de noter que le mta data est aussi stock dans le datawarehouse. Le datawarehouse est centrale et devrait tre contenir toutes les donnes de l'entreprise. p La zone prsentation : Une fois les donnes charges dans le datawarehouse, les utilisateurs peuvent y accder pour excuter e cu e leurs eu s requtes equ es Ad d hoc, oc, programmer p og a e les es rapports, appo s, analyser et visualiser l'information
Master F3I (Data Mining et Apprentissage Automatique) 47

29/11/2009

2- Les DataMarts Indpendants

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

48

2- Les DataMarts Indpendants

Dans cette architecture nous retrouvons : L L'architecture architecture prne par Kimball : Le staging area : Le staging area est temporaire il sert stocker les donnes extraites (E) des systmes sources. C C'est est dans le staging area que l'on effectue les diffrentes transformations (T) savoir : Le nettoyage des donnes, le merge, g , la standardisation, , le dduplication... p des donnes. Les donnes dans le staging area sont dtruites une fois le chargement des data marts termin en succs. Les data marts indpendants : Les donnes du staging area sont transfres vers le datamart concern (L). Il est important de noter que le mta data est aussi stock dans le datamart. Les data marts sont indpendants p ce q qui veut dire qu'il n'existe aucune intgration (Communication) entre ces derniers.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

49

2- Les DataMarts Indpendants

Dans cette architecture nous retrouvons : L L'architecture architecture prne par Kimball : La zone prsentation : Une fois les donnes charges dans les Data marts, les utilisateurs peuvent y accder pour excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l'information en provenance des data marts, , analyser y et visualiser l'information

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

50

2- Les DataMarts Indpendants

Avantages: permet de rpondre rapidement des besoins extrmement urgents dans des dpartements o la gestion est dcentralise utile lorsque le budget allou pour le dploiement de l'architecture ne permet pas la construction d'un systme global intgr permet de voir des rsultats court terme permet de justifier la poursuite des dveloppements plus globaux ncessite des cots moindres en termes dquipements et autres ressources court terme peut tre utilise lorsque la gestion des donnes est dj dcentralise et que les donnes gres sont propres chacun des groupes de lorganisation

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

51

2- Les DataMarts Indpendants

Inconvnients : peut entraner des problmes dvolutivit vers une architecture plus robuste doit faire partie d dun un processus global pour tre russi des problmes de redondance et dinconsistances sont possibles

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

52

3- Datamarts dpendants avec ODS

L'ODS : L'ODS est l'acronyme pour Operational Data Store

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

53

3- Datamarts dpendants avec ODS

Dans cette architecture nous retrouvons : L L'architecture architecture prne par Bill Inmon : L'ODS : L'ODS est l'acronyme pour Operational Data Store ou Magasin de donnes oprationnelles. Il joue deux rles : Le rle du staging area qui sert stocker les donnes extraites (E) des systmes sources. On y effectue aussi les diffrentes transformations ( (T) ) savoir : Le nettoyage y g des donnes, le merge, la standardisation, le dduplication... des donnes. Par contre les donnes dans l'ODS l ODS ne sont dtruites qu'aprs la dure de vie des oprations qui est un facteur dfinit par l'organisation et dpend de plusieurs critres. Le deuxime rle d d'un un ODS et c c'est est surtout sa raison d'tre d tre c'est d'intgrer les donnes sources dans le but de prsenter toute l'information ncessaire prendre des dcisions dc s o s tactiques ac ques

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

54

3- Datamarts dpendants avec ODS

L Entreprise Datawarehouse : Les donnes de ll'ODS L'Entreprise ODS sont transfres vers le datawarehouse (L). Le Datawarehouse est centrale, c'est d'ailleurs la raison de l'appellation Entreprise p Datawarehouse ( (EDW), ) et devrait tre contenir toutes les donnes de l'entreprise. Les data marts dpendants : Ces data marts peuvent tre aliments soit de L'EDW soit de l'ODS. Ces data marts sont dpendants. La zone prsentation : Une fois les donnes charges dans le Datawarehouse et les data marts dpendants, les utilisateurs peuvent y accder pour excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l'information...

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

55

3- Datamarts dpendants avec ODS

Avantages: dfinition des donnes intgre et trs consistante fonctionne habituellement bien lorsque la gestion des donnes est dj centralise un certain niveau Inconvnients : demande des efforts trs importants de planification, planification danalyse et de conception au dbut du projet cot de ralisation significatif prsente t d des dl dlais i avant t que limplantation li l t ti fi finale l puisse i tre fonctionnelle retour dinvestissement et bnfices visibles seulement l long t terme demande une bonne coordination entre les diffrents groupes de lorganisation et les consensus peuvent tre difficiles obtenir
Ecole Doctorale (Data Mining et ...) 56

29/11/2009

4- Datamarts logiques avec datawarehouse actif

Les datamarts ne sont pas des bases de donnes spares mais des vues logiques des datawarehouses.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

57

4 Construction 4C t ti dun d DW

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

58

4 Construction 4C t ti dun d DW
Les composants fonctionnels d d'un un entrept de donnes s s'observent observent sur trois niveaux : l'acquisition des donnes, leur stockage, leur exploitation (restitution des informations dcisionnelles) PREMIER NIVEAU:ACQUISITION Q DES DONNEES Le premier niveau est celui de l'acquisition des donnes qui vont alimenter l'entrept de donnes. L'htrognit des supports d'o sont issues les donnes extraire a pour corollaire la complexit de la phase d'alimentation de l'entrept de donnes. En effet, les systmes y dinformation oprationnels p sont, , le p plus souvent, , composs p dapplications pp multiples, destines chacune traiter un domaine dactivit spcifique (approvisionnement, production, vente,). Le composant d'acquisition des donnes a donc pour vocation d'unifier les donnes oprationnelles qui, la base, ne sont pas normalises. Il est important p de p porter une g grande attention la nature et la q qualit des donnes avant de les extraire destination du systme d'information dcisionnel. Aprs avoir identifi, parmi toutes les donnes prsentes dans les systmes d'information oprationnels ou issues de bases de donnes externes, celles utiles l'aide la dcision, il est ncessaire d'analyser y leur q qualit tant en termes de capacits p de rapprochement pp d'un mme rfrentiel lors de leur arrive dans l'entrept de donnes, qu'en termes de nettoyage. Si l'on souhaite conserver une cohrence entre les donnes visualises du ct transactionnel et du ct dcisionnel, leur nettoyage s'effectuera la source plutt que dans l'entrept q p de donnes.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

59

4 Construction 4C t ti dun d DW
A) ALIMENTATION DE L'ENTREPOT DE DONNEES L'alimentation des donnes partir des bases de production est une phase primordiale d'un datawarehouse. Des outils logiciels sont alors ncessaires pour intgrer les donnes d dans lle datawarehouse. d t h O parle On l d' d'outil til ETL (Extract, (E t t Transform, T f L d) Load). Extract-Transform-Load est connu sous le terme ETL, ou Extracto-Chargeur, (ou parfois : datapumping). Il s'agit d'une technologie informatique permettant d'effectuer des synchronisations massives d'information d'une base de donnes vers une autre. Selon le conte te on trad contexte, traduira ira par alimentation , extraction e traction , transformation , constitution constit tion ou conversion , souvent combins. Elle repose sur des connecteurs servant exporter ou importer les donnes dans les applications (Ex : connecteur Oracle), des transformateurs qui manipulent les donnes (agrgations, filtres, conversions...), et des mises en correspondance (mappages) (mappages). L'objectif est l'intgration par l'entreprise de ces donnes.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

60

4 Construction 4C t ti dun d DW

A l'origine, les solutions d'ETL sont apparues pour le chargement rgulier de donnes agrges g g dans les entrepts p de donnes ( (ou datawarehouse), ) avant de se diversifier vers les autres domaines logiciels. Ces solutions sont largement utilises dans le monde bancaire et financier, ainsi que dans l'industrie, au vu de la multiplication des nombreuses interfaces.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

61

4 Construction 4C t ti dun d DW
Actuellement il existe trois catgories doutils ETL : Engine-based : les transformations sont excutes sur un serveur ETL, disposant en gnral dun rfrentiel. Ce genre doutil dispose dun moteur de transformation ; Database-embedded : les transformations sont intgres dans la base de donnes. Cette fonctionnalit est trs consommatrice de ressource sur lla b base de d d donnes. Code-generators : les transformations sont conues et un code est gnr. Ce code est dployable indpendamment de la base de donnes.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

62

4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 1- Dcouverte des donnes : Il s'agit d'identifier dans les systmes sources les donnes importer dans le datawarehouse. Il faut prendre les donnes les plus judicieuses. Un mauvais choix peut considrablement compliquer les phases suivantes de l'alimentation. 2- Extraction des donnes : Il s'agit de collecter les donnes utiles dans l systmes les t d de production(sources). d ti ( ) Il faut f t identifier id tifi les l donnes d ayant t t modifies afin d'importer le minimum de donnes dans le datawarehouse. Et pour ce faire on pourrait s'entendre avec le responsable bl du d systme t source pour ajouter j t soit it un flag fl ou encore des d dates dans chacune des tables extraites, au moins deux dates : Date de cration de l'enregistrement dans la table et la date de mise jour (En gnral la plupart des systmes sources disposent de ces deux dates). dates) Par ailleurs pour ne pas perdre des donnes suites des problmes d'extraction, il est important de s'assurer que le systme source ne purge pas les donnes avant que ll'entrept entrept ne les ait extraits. extraits
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 63

4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 3- Transformation des donnes : est la tche la plus complexe et qui demande beaucoup de rflexion. Voici les grandes fonctionnalits de transformation : _ Nettoyage des donnes _ Standardisation des donnes. _ Conformit C f it des d donnes. d _ Gestion des tables de fait _ Gestion des dimensions _ etc. t
Il faut rendre les donnes cohrentes avec la structure du datawarehouse. On d'applique alors des filtres sur les donnes. donnes Il peut tre ncessaire de convertir le format des donnes (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut galement associer les champs source avec les champs cibles. Un champ source adresse pourra ainsi par exemple tre dcompos en numro , rue , code postal , ville ou l'inverse l inverse. Enfin des donnes des systmes de production doivent tre agrges ou calcules avant leur chargement.
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 64

4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 4- Chargement des donnes : C'est la dernire phase de l'alimentation d'un datawarehouse. Il s'agit d'insrer les donnes au sein du datawarehouse. C'est une phase dlicate car les quantits de donnes sont souvent trs importantes.Il permet de transfrer les donnes vers leur destination finale. 3 cas de figures se prsentent, selon larchitecture mise en place 1) de d charger h l donnes les d dans d l' t l'entrept t de d donnes: d Si la politique retenue a t de construire un entrept de donnes avec une base de donnes, alors les donnes seront charges dans l'entrept. Cette approche est proche celle de Bill Inmon. Inmon Il sera ds lors possible dutiliser des fonctionnalits analytiques (comme , permis par, Oracle).

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

65

4 Construction 4C t ti dun d DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes : 2) de les charger dans des cubes de donnes : La deuxime possibilit est de charger les donnes directement dans des cubes de donnes sans les stocker dans un DW. Cette approche est certainement la plus proche celle de Ralph Kimball. Un bon exemple est l'utilisation directe des cubes de donnes. 3) le mode hybride: La troisime possibilit est celle offre le plus davantages mais demande par contre t plus l d'effort. d' ff t Le L chargement h td des d donnes seffectue ff t la l fois f i sur le datawarehouse et les datamarts : - Un premier chargement des donnes dans un entrept de donnes. - Un deuxime chargement dans des cubes de donnes. donnes
Par contre cette approche ajoute une charge de travail trs considrable pour l'quipe de dveloppement (Aucun impact sur les utilisateurs) : maintenir - Une base de donnes crer et maintenir. - Un exercice de rflexion sur le modle de donnes du datawarehouse. -Un autre exercice de rflexion sur le modle des mtas donns. 29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 66

4 Construction 4C t ti dun d DW
Les composants fonctionnels d d'un un entrept de donnes s s'observent observent sur trois niveaux : l'acquisition des donnes, leur stockage, leur exploitation (restitution des informations dcisionnelles) DEUXIEME NIVEAU: STOCKAGE DES DONNEES Le second niveau est celui de la gestion

des donnes. Sa principale vocation est d'assurer leur stockage dans une base dcisionnelle souvent sous un SGBDR. Les donnes sont structures en contexte d'analyse dcisionnelle et sont orientes vers l'utilisateur dcisionnel ;les donnes sont le plus souvent structures selon des modles en toile. Cest ce niveau que lon construit des cubes multidimensionnels. Le composant de gestion des donnes permet ainsi de raliser au travers des cubes des interrogations sur plusieurs dimensions (diff (diffrents t points i t de d vue) ) des d d donnes contenues t dans d l'entrept.. l' t t

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

67

4 Construction 4C t ti dun d DW
Classes de donnes : Le datawarehouse se structure en quatre classes de donnes, organises selon un axe historique et un axe synthtique. 1-Les donnes dtailles : Elles refltent des vnements les plus rcents. Les donnes provenant des systmes de production sont g es ce niveau. eau. Elles es prsentent p se e des avantages a a ages vidents de s intgres (profondeur et niveau de dtail, possibilit d'appliquer de nouveaux axes d'analyse et mme de revenir a posteriori sur le pass ) mais reprsentent p un p plus g grand volume et ncessitent donc des matriels plus performants. .

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

68

4 Construction 4C t ti dun d DW

2-Les donnes agrges : Elles correspondent des lments d'analyse y reprsentatifs p des besoins des utilisateurs. Ce sont donc des donnes dj traites par le systme et reprsentant un premier rsultat d'analyse et de synthse des donnes contenues dans les systmes y de p production. Elles p prsentent d'autres avantages g ( (facilit d'analyse, rapidit d'accs, moindre volume) mais il n'est pas toujours possible de retrouver le dtail et la profondeur des indicateurs une fois ceux-ci agrgs et figs : on prend le risque de figer les donnes dans une certaine vue, selon les axes d'agrgation retenus, et de ne plus pouvoir revenir plus tard sur ces critres si l'on n'a pas conserv le dtail (par exemple, si l'on a agrg les rsultats par mois, il ne sera peut-tre t t plus l possible ibl d de f faire i une analyse l par j journe). ) et de celles du datawarehouse.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

69

4 Construction 4C t ti dun d DW

3-Les donnes historises : Chaque nouvelle insertion dans le datawarehouse ne dtruit pas les anciennes valeurs mais cre une nouvelle insertion. 4- Les 4 L mta t donnes d : Il s'agit ' it de d d donnes sur les l donnes d . Elles Ell dcrivent les rgles ou processus attachs aux donnes du systme. Les mta donnes permettront notamment de connatre: quelles sont les donnes entreposes, leurs formats, leurs significations, leurs degrs d'exactitude. les processus de rcupration/extraction dans les bases sources. sources la date du dernier chargement du datawarehouse. l'historique des donnes sources et de celles du datawarehouse.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

70

4 Construction 4C t ti dun d DW
Stockage de donnes : Le stockage au sein d d'un un datawarehouse a un besoin de synthse (agrgation des donnes) et un besoin de dtails (conservation des donnes dtailles). Ce stockage peut tre ralis de trois manires diffrentes : structure directe simple, structure de cumul simple, par rsum droulant.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

71

4 Construction 4C t ti dun d DW
1-Structure directe simple: On fait des mises jour du datawarehouse avec des laps de temps important.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

72

4 Construction 4C t ti dun d DW
2- Structure de cumul simple : on stocke les donnes de chaque mise j jour, les l mises i jour j tant t t frquentes f t (par ( exemple l t tous les l jours) j ) on a un espace occup important, mais on ne perd pas dinformation

29/11/2009

Ecole Doctorale (Data Mining et ...)

73

4 Construction 4C t ti dun d DW
3-Structure par rsum droulant : chaque mise jour, on stocke des d donnes dtailles, dt ill et t on synthtise thti les l anciennes i d donnes en fonction f ti de leur age. Plus une donne est vieille, moins elle est dtaille

29/11/2009

Ecole Doctorale (Data Mining et ...)

74

4 Construction 4C t ti dun d DW
Les composants fonctionnels d d'un un entrept de donnes s s'observent observent sur trois niveaux : l'acquisition des donnes, leur stockage, leur exploitation (restitution des informations dcisionnelles)

Le troisime niveau est celui des restitutions des informations dcisionnelles dans des applications pouvant se greffer sur la base dcisionnelle. Cette fonction est assure par des outils dcisionnels varis comme des outils de reporting, des outils de tableaux de bord, des outils de Balanced Scorecard ou des outils de fouille de donnes. Pour un mme outil, le type d'utilisation est galement de diffrents ordres. Ainsi, p pour un outil de requtage, q g l'utilisateur p peut vouloir accder des rapports prdfinis fixes, modifier les paramtres de rapports prdfinis ou crer son propre rapport. De la mme manire, un rapport peut tre excut directement par l'utilisateur ou le rsultat envoy dans sa messagerie. Les personnes qui produisent les tableaux de bord n n'auront auront pas saisir des donnes alimentant leurs tableaux. Ce qui a pour effet d'augmenter les qualits des tableaux de bord au niveau notamment de la fiabilit et de la rapidit p d'obtention des informations.

TROISIEME NIVEAU:RESTITUTION DES INFORMATIONS DECISIONNELLES

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

75

4 Construction 4C t ti dun d DW
En bref :
En conclusion Un entrept de donnes est une collection de donnes orientes sujet, sujet intgres, intgres non volatiles et historises, historises organises pour supporter un processus d'aide la dcision. Typiquement ce processus est men par l'intermdiaire de requtes de type OLAP (On-line (On line Analytical processing). Ces requtes sont gnralement complexes car elles contiennent de nombreuses oprations de jointure et de regroupement et induisent des temps de rponse trs lves.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

76

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

77

Modlisation Entit/Association

A Avantages: t

Normalisation:

liminer les redondances Prserver la cohrence des donnes

Optimisation des transactions Rduction de lespace de stockage Schma trs/trop complet:

Inconvnients pour un utilisateur final:

Contient des tables inutiles pour lanalyse

Pas dinterface g graphique p q capable p de rendre utilisable le modle E/A Inadapt pour lanalyse

29/11/2009

Ecole Doctorale (Data Mining et ...)

78

Exemple
Transporteur Mode M d dexpdition Produit Commande client Client Magasin E l Employ Stock Fonction
29/11/2009

Contrat Type de contrat

Groupe de produits

Rgion de ventes Division de ventes

Famille de produits d i

Fournisseurs

Master F3I (Data Mining et Apprentissage Automatique)

79

Modlisation des DW

Nouvelle mthode de conception autour des concepts mtiers

Ne pas normaliser au maximum Table de faits Table de dimensions Modle en toile Modle en flocon

Introduction de nouveaux types de table:


Introduction oduc o de nouveaux ou eau modles: od es:


29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

80

Table de faits

Table principale du modle dimensionnel Contient les donnes observables (les faits) sur le sujet tudi selon divers axes danalyse (les dimensions) Table de faits des ventes

Cls trangres vers les dimensions Faits

Cl date (CE) Cl produit (CE) Cl magasin (CE) Quantit vendue Cot Montant des ventes

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

81

Table de faits (suite)

Fait:

Ce que lon souhaite mesurer Quantits vendues, vendues montant des ventes ventes Contient les cls trangres des axes danalyse (dimension) Date, , produit, p , magasin g Trois types de faits: Additif Semi additif Non additif

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

82

Typologie des faits

Additif: additionnable suivant toutes les dimensions


Quantits vendues, chiffre daffaire Peut tre le rsultat dun calcul:

Semi additif: additionnable suivant certaines dimensions

Bnfice = montant vente - cot

Pas de P d sens dadditionner d dditi sur lles d dates t car cela l reprsente des instantans dun niveau sur les comptes: on connat ce que nous possdons en banque Non additif: fait non additionnable quelque soit la dimension

Solde dun compte bancaire:

Prix unitaire: laddition sur nimporte quelle dimension donne un nombre dpourvu de sens

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

83

Granularit de la table de faits


Rpondre la question :

Que reprsente un enregistrement de la table de faits?

La granularit l i dfinit dfi i le l niveau i de d dtails d il de d la l table bl de faits:

Exemple: une ligne de commande par produit produit, par client et par jour

29/11/2009

Prcision des analyses Taille de lentrept

Finesse

Master F3I (Data Mining et Apprentissage Automatique)

84

Table de dimension

Axe danalyse d analyse selon lequel vont tre tudies les donnes observables (faits) Contient le dtail sur les faits Dimension produit

Cl de substitution

Attributs de la dimension

Cl produit (CP) Code produit Description du produit Groupe de produits Marque Emballage Poids

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

85

Table de dimension (suite)


Dimension = axe danalyse

Client, produit, priode de temps Lensemble des informations descriptives des faits

Contient souvent un grand nombre de colonnes

Co e e Contient en g gnral a beaucoup moins o s denregistrements quune table de faits

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

86

La dimension Temps
Di Dimension i Temps T

Commune lensemble du DW Relie toute table de faits

Cl temps (CP) Jour Mois Trimestre es e Semestre Anne N Num_jour_dans_anne j d Num_semaine_ds_anne

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

87

Granularit dune dimension

Une dimension contient des membres organiss en hirarchie :


Chacun d Ch des membres b appartient ti t un niveau i hi hirarchique hi (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques

Temps :

anne semestre trimestre - mois

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

88

volution des dimensions

Dimensions volution lente


Un client peut se marier, avoir des enfants Un produit peut changer de noms ou de formulation: Somam en Danon yaourt la vanille en yaourt saveur vanille G ti Gestion d de la l situation, it ti 3 solutions: l ti crasement de lancienne valeur Ajout j de nouvel enregistrement g Valeur dorigine / valeur courante Subit S bit d des changements h t t trs frquents f t (t (tous les l mois) i ) dont d t on veut t prserver lhistorique Solution: isoler les attributs qui changent rapidement

Dimensions volution rapide


29/11/2009

Ecole Doctorale (Data Mining et ...)

89

Dimensions volution lente (1/3)

crasement de lancienne valeur :

Correction des informations errones Facile mettre en uvre Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesurs

Avantage:

Inconvnients:

Cl p produit Description p du p produit Groupe p de p produits 12345 Intelli-Kids Logiciel Jeux ducatifs
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 90

Dimensions volution lente (2/3)

Ajout dun nouvel enregistrement:

Utilisation dune cl de substitution Permet de suivre lvolution des attributs Permet de segmenter la table de faits en fonction de lhistorique Accroit le volume de la table

Avantages:

Inconvnient:

Cl produit Description du produit Groupe de produits 12345 25963


29/11/2009

Intelli-Kids Intelli Kids Intelli-Kids

Logiciel Jeux ducatifs


91

Master F3I (Data Mining et Apprentissage Automatique)

Dimensions volution lente (3/3)


Ajout dun nouvel attribut:

Valeur origine/valeur courante Avoir deux visions simultanes des donnes : Voir les donnes rcentes avec lancien attribut Voir les donnes anciennes avec le nouvel attribut Voir les donnes comme si le changement navait pas eu lieu Inadapt pour suivre i plusieurs i valeurs dattributs i iintermdiaires i i

Avantages:

Inconvnient:

Cl produit d it D Description i ti d du Groupe G de d produit produits 12345 Intelli Kids Intelli-Kids Logiciel
29/11/2009

Nouveau groupe N de produits Jeux ducatifs


92

Master F3I (Data Mining et Apprentissage Automatique)

Dimensions volution rapide

Changements frquents des attributs dont on veut garder lhistorique

Clients pour une compagnie dassurance

Isoler les attributs q qui voluent vite

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

93

Dimensions volution rapide (suite)


Dim client Dim client Cl_client Nom Prnom Adresse Date_nais Revenus Niveau_tude Nb_enfants Statut_marital Profil_financier Profil achat Profil_achat Faits Cl_client Cl client Cl_client Nom Prnom Adresse Date_naissance Dim_dmographique Cl_dmog Revenus Niveau tude Niveau_tude Nb_enfants Statut_marital Profil_financier
Master F3I (Data Mining et Apprentissage Automatique)

Faits Cl_client Cl_dmo Cl d g

29/11/2009

Profil_achat

94

Les types de modles

Modle en toile
29/11/2009

Modle en flocon
95

Master F3I (Data Mining et Apprentissage Automatique)

Modle en toile

Une table de fait centrale et des dimensions Les dimensions nont pas de liaison entre elles Avantages:

Facilit de navigation N Nombre b de d jointures j i t limit li it Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures

Inconvnients:

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

96

Modle en toile
Dimension Temps ID temps anne mois jour j

Dimension Magasin ID magasin description p ville surface

Dimension Region g ID rgion pays description district vente ente .


29/11/2009

T bl d Table de f faits it A Achat h t ID client ID temps ID magasin g ID rgion ID produit Quantit achete Montant des achats

Dimension produit ID produit nom code prix i poids groupe famille Dimension Client ID client nom prnom adresse
97

Master F3I (Data Mining et Apprentissage Automatique)

Modle en flocon

Une table de fait et des dimensions dcomposes en sous hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie la table de fait. On dit quelle a la granularit la plus fine Avantages:

Normalisation des dimensions conomie despace disque Modle plus complexe (jointure) Requtes moins performantes

Inconvnients:

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

98

Modle en flocon
Dimension Temps ID temps annee mois jour

Dimension Magasin ID magasin description ville surface

Dimension produit ID produit ID groupe nom code prix poids

Dimension Region ID rgion ID division vente pays description p . Dimension Division vente ID di division i i vente t description .
29/11/2009

Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats

Dimension groupe ID groupe ID famille nom

Dimension Famille ID famille nom

Dimension Client ID client nom prnom adresse Master F3I (Data Mining et Apprentissage Automatique)

99

Mthodologie: 9 tapes de Kimball


1. 2. 3 3. 4. 5 5. 6. 7 7. 8. 9.

Choisir Ch i i l le sujet j t Choisir les faits Choisir la granularit des faits Identifier et adapter les dimensions Stocker les pr-calculs tablir les tables de dimensions Choisir la dure de la base Suivre les dimensions lentement volutives Dcider des requtes q p prioritaires, , des modes de requtes

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

100

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

101

Alimentation/ mise jour de lentrept

Entrept mis jour rgulirement Besoin dun outil permettant dautomatiser les chargements dans lentrept Utilisation doutils ETL (Extract, Transform, Load)

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

102

Dfinition dun ETL


Offre un environnement de dveloppement Offre des outils de gestion des oprations et de maintenance Permet de dcouvrir, analyser et extraire les donnes partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger g les donnes dans un entrept p

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

103

Extraction

Extraire des donnes des systmes de production Dialoguer avec diffrentes sources:

Base d B de d donnes, Fichiers, Bases propritaires ODBC, SQL natif, tif Fichiers plats

Utilise divers connecteurs :


29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

104

Transformation

Rendre cohrentes les donnes des diffrentes sources


Transformer, nettoyer, trier les donnes Exemple: unifier le format des dates (MM/JJ/AA BJJ/MM/AA)

Etape trs importante, garantit la cohrence et la fiabilit des donnes

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

105

Chargement

Insrer ou modifier les donnes dans lentrept Utilisation de connecteurs:


ODBC, SQL natif, natif Fichiers plats

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

106

Aperu dun ETL

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

107

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

108

OLTP VS OLAP
Produits Produit
PK id produit id_produit Libell Famille

Pays
Espagne Algrie

oranges poires pommes

A h t Achat
PK FK id_achat id_client _ id_produit Quantit id li t id_client Nom adresse

France

client
PK

janvier j fvrier

avril

Temps

Vente de pommes en Algrie en avril

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

109

ROLAP

Relational OLAP

Donnes stockes dans une base de donnes relationnelles Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel

Plus facile et moins cher mettre en place Moins performant lors des phases de calcul Exemples de moteurs ROLAP:

MetaCube (Informix) DSS Agent (MicroStrategy)

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

110

MOLAP

M lti di Multi dimensional i l OLAP: OLAP


Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube

Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse multidimensionnelle Exemples de moteurs MOLAP:

Microsoft Analysis Services Essbase H Hyperion i

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

111

HOLAP

Hybride OLAP:

tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes

Solution hybride y entre MOLAP et ROLAP Bon compromis au niveau cot et performance

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

112

Le cube

Modlisation multidimensionnelle des donnes facilitant lanalyse dune quantit selon diffrentes dimensions:

Temps Localisation gographique g g p q

Les calculs sont raliss lors du chargement ou de la mise jour du cube

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

113

Manipulation des donnes multidimensionnelles

Opration i agissant i sur la structure

Rotation (rotate): prsenter une autre face du cube

05 uf 221 Viande 275

06 263 257

07 139 116 Idf

05 101 QA 395

06 120 400

07 52 203

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

114

Manipulation des donnes multidimensionnelles

Opration agissant sur la structure

Tranchage (slicing): consiste ne travailler que sur une tranche du cube. Une des dimensions est alors rduite une seule valeur

05 f uf Idf 220 163 QA 225 Viande Idf QA 187

06 265 245 152 174

07 284 240 145 184 f uf Idf

06 265 152 QA 245 Viande Idf QA 174

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

115

Manipulation des donnes multidimensionnelles

Opration p agissant g sur la structure

Extraction dun bloc de donnes (dicing): ne travailler que sous un sous-cube

05 f uf Idf 220 163 QA 225 Viande Idf QA 187

06 265 245 152 174

07 284 240 145 184 uf Idf 05 220 QA 225 06 265 245 07 284 240

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

116

Manipulation des donnes multidimensionnelles

Opration agissant sur la granularit

Forage vers le haut (roll-up): dzoomer Obtenir un niveau de granularit suprieur Utilisation de fonctions dagrgation Forage vers le bas (drill-down): zoomer Obtenir Obt i un niveau i de d granularit l it infrieur i f i Donnes plus dtailles

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

117

Drill-up, drill-down
Roll up Roll up p
05-07 uf Viand e 623 648 uf Viand e Buf 05 Alim. 496 06 520 07 255

Dimension Temps
1S05 uf Viand e 100 134 2S05 121 141 1S06 111 120 2S06 152 137 1S07 139 116

05 221 275 05 20

06 263 257 06 19 43

07 139 116 07 22 48

Drill down

Omelette 40

Drill down

Dimension Produit
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 118

MDX (Multidimensional Expressions)

Langage permettant de dfinir, d'utiliser et de rcuprer des donnes partir d'objets multidimensionnels

Permet deffectuer les oprations dcrites prcdemment

Equivalent q de SQL p pour le monde OLAP Origine: Microsoft

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

119

MDX, exemple

Fournir les effectifs d dune une socit pendant les annes 2004 et 2005 croiss par le type de paiement

SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS, {[Pay] [Pay Type] {[Pay].[Pay Type].Members} Members} ON ROWS FROM RH
Cube Dimensions, axes a es d danalyse a a yse

WHERE ([Measures].[Count])
2004 Heure Jour
29/11/2009

2005 4015 2056


120

3396 3678

Master F3I (Data Mining et Apprentissage Automatique)

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

121

Le march du dcisionnel

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

122

Quelques solutions commerciales

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

123

Quelques solutions open source


ETL
Octopus Kettle CloverETL Talend

Entrept de donnes
MySql Postgresql Greenplum/Biz

OLAP
Mondrian Palo

Reporting
Birt Open

Data Mining
Weka R-Project Orange Xelopes

gres

Report Jasper Report JFreeReport

Intgr
Pentaho SpagoBI S BI

(Kettle, Mondrian, JFreeReport, Weka)

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

124

Plan

Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

125

Description du cas dtude

Socit de la g grande distribution


Transporteur Mode dexpdition Commande client Client Magasin Employ St k Stock Rgion de ventes Division de ventes
126

Contrat Type de contrat

Produit Groupe de produits Famille de produits

Fonction
29/11/2009

F Fournisseurs i

Master F3I (Data Mining et Apprentissage Automatique)

Les tables qui vont nous servir


Transporteur Mode dexpdition Produit Commande client Groupe de produits Magasin Famille de produits

Contrat

Type de T d contrat

Client

Employs St k Stock

Rgion de ventes t

Fonction

F Fournisseurs i

Division de ventes
127

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

Modle en flocon

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

128

Rfrences

J. Han, J H and d M. M Kamber. K b D t Mining Data Mi i C Concepts t and Techniques. Morgan Kaufmann.

29/11/2009

Ecole Doctorale (Data Mining et ...) Master F3I (Data Mining et Apprentissage Automatique)

129