Data warehouse

w Motivations et architecture w Conception de la BD support w Alimentation du DW w Exploitation OLAP w Conclusion

1. OLTP et OLAP
App App App li. li. li. Reports & Analysi s

OLTP

DW Aides à la décisi

Introduction DW

Explosion de l ’OLAP
w Facteurs économiques & technologiques
18 16 CA en Milliards de $ 14 12 10 8 6 4 2 0 1994 1995 1996 1997 1998 1999 2000 2001 Années

Introduction DW

Motivations des entreprises
w Besoin des entreprises
n n n

accéder à toutes les données de l’entreprise regrouper les informations disséminées analyser et prendre des décisions rapidement (OLAP) Grande distribution : marketing, maintenance, ...
l l

w Exemples d'applications concernées
n

produits à succès, modes, habitudes d’achat préférences par secteurs géographiques mailing ciblés pour le marketing classification des clients, détection fraudes, fuites de clients

n

Bancaire : suivi des clients, gestion de portefeuilles
l

n

Télécommunications : pannes, fraudes, mobiles, ...
l

Introduction DW

aidant à la prise de décision dans l’entreprise. consolidé dans une base de données unique.Datawarehouse : définition w Entrepôt de données n Ensemble de données historisées variant dans le temps. géré dans un environnement de stockage particulier. organisé par sujets. collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision w Trois fonctions essentielles : n n n Introduction DW .

Architecture type Introduction DW .

Datamart (Magasin de données) w sous-ensemble de données [extrait du DW] et ciblé sur un sujet unique Data Warehouse Bases de production Bases multidimensionnelles Data Marts SGBD relationnel Outils d’alimentation Bases externes Introduction DW Bases relationnelles .

2. BD patrimoniales. Web. Concevoir le DW w Export de données des sources n n n Hétérogènes et variées Fichiers. … Définition des vues exportées Intègre les données utiles S'appuie sur le modèle relationnel Description des sources Description des vues exportées Description du schéma global w Définition d'un schéma global n n w Nécessité d'une gestion de méta-données n n n Conception DW .

pays) l Periodes(IDper. ) n Synthétise une vue simple des événements à analyser l n Détaille la vue selon les dimensions Exemple: Produits(IDprod. période. nom.Organisation par sujet w Les données sont organisées par sujets majeurs: n Clients. … Collecte les données utiles sur un sujet l w Sujet = faits + dimensions n Exemple: ventes Exemple: Ventes (N°. dept. magasin. taille. trimestre. description. année. ville. jour) l Conception DW . couleur. produits. produit. …) l Magasins(IDmag. mois. ventes.

Schémas en étoile w Une table de faits encadrées par N tables de dimensions Produits Periodes IDper année trimestre mois jour Table de faits “ventes” periode produit magasin unités_vendues montant_ventes taxes_ventes IDprod description couleur taille fournisseur Magasins IDmag nom ville département pays Conception DW .

Schémas en flocons w Raffinement du schéma étoile avec des tables normalisées par dimensions Produits Fournisseurs w IDprod IDfour w description description w couleur type taille Adresse w IDfour Ventes w w Avantages n n Évite les redondances Conduit aux constellations (plusieurs tables de faits à dimensions partagées) Conception DW .

Conception du schéma intégré w Isoler les faits à étudier n Schéma des tables de faits Axes d'analyse Éclater en plusieurs tables liés par contraintes référentielles Plusieurs tables de faits partagent quelques tables de dimension (constellation d’étoiles) w Définir les dimensions n w Normaliser les dimensions n w Intégrer l'ensemble n n Conception DW .

Bilan conception w Le datawarehouse regroupe. résume les données de l'entreprise w Le concepteur définit schéma exportés et intégrés n n des choix fondamentaux ! Ciblage essentiel ! w Le datamart c’est plus ciblé et plus petit. historise. w Questions ? n Peut-on ajouter des données au niveau de l ’entrepôt ? n Conception DW .

Alimenter le DW w ETL = Extracteur+Intégrateur n Extract + Transform + Load Depuis les bases sources ou les journaux Différentes techniques Push = règles (triggers) l Pull = requêtes (queries) l w Extraction n n n Périodique et répétée l Dater ou marquer les données envoyées Ne pas perturber les applications OLTP n Difficulté l L'alimentation .3.

SQL complet. AVG) w Cleaning des données  L'alimentation . SQL limité. BD réseaux.Transformation w Accès unifiés aux données n Unification des modèles l l Traduction de fichiers. agrégation (SUM. … n Unification des accès l w Mapping plus ou moins sophistiqué n Unification des noms l l Appeler pareil les mêmes choses et différemment les choses différentes Application des "business rules" n n Elimination des doubles Jointure. annuaires en tables Evolution vers XML (modèle d'échange) plus riche Rowset. projection.

Data Cleaning w Valeurs manquantes (nulles) n n Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne Générées en présence de bruits Détecter par une analyse de voisinage Écart par rapport à la moyenne l Factorisation en groupes (outliers) l w Valeurs erronées ou inconsistantes n n n Remplacer par une valeur fixe ou par la moyenne w Inspection manuelle de certaines données possible L'alimentation .

Chargement w Pas de mise à jour n n Insertion de nouvelles données Archivage de données anciennes Périodicité parfois longue Chargement en blocs (bulk load) Mise à jour des index et résumés Cohabitation avec l'OLAP ? Procédures de reprises ? w De gros volumes n n n w Problèmes n n L'alimentation .

Informatica PowerCenter 5 http://solutions. Pour citer quelques acteurs du CRM analytique en vrac: Siebel.Accelerator pour Siebel. Tibco. L'outil ETL s'appelle Vision:Pursuit. Partie analytique: Brio. Hummingbird fournit également une plateforme ETL et EAI du nom de Genio Suite. Peoplesoft et JDEdwards. sur systèmes anciens et plus récents. Essbase.. MS Hyperion SQL Server et IBM DB2. SAP en natif. Business Objects. Mais il n'est pas question de CRM analytique. Sybase.Extract fonctionne avec des librairies pour supporter les entrepôts de données et des plugins additionnels en prolongement d'applications précises. ETI ETI. Brio. DataStage XE est l'offre traditionnelle d'Ardent qu'Informix a racheté début 2000 avant qu'Ascential ne la reprenne à son compte lors de sa prise d'indépendance. tandis qu'Informix partait chez IBM avec ses entrepôts de données. Siebel. versions récentes des SGBDR. SPSS et Crystal Decisions. Teradata. Prise en charge nouvelle des formats de données : XML. Hummingbird Genio Suite 5 Computer Associates DecisionBase Connecteurs en direct pour extraire les données en temps réel depuis SAP.journaldunet. Cognos et Gamme extrêmement MicroStrategy. Actuate et Brio. SQL/Teradata : Entrepôts de donnéeset les middleware MQ (IBM. IBM DB2. mais l'offre ETL est indépendante. et PowerMart à celle du service ou du département. L'un des éditeurs de référence dans le domaine de l'ETL. PeopleSoft et des systèmes mainframes. Peoplesoft. Partenaire notamment de Siebel. Nuance. Plugins ETI. Sybase. PowerCenter à l'échelle de l'entreprise.. Teradata. Hyperion. mais pas ceux de la business intelligence. Extraction standard depuis: fichiers plats (C et Cobol). Microstrategy. ETI. binaires. cette solution se propose de rendre accessible en "quasi-temps réel" les données les plus souvent accédées. Accès à de nombreuses sources de données dont IBM/Informix. Cognos. mainframe. Surtout connu pour son offre de portail.com/0208/020827_bi_panorama1. SAP. SAP. Mais Genio Miner aggrège plus de L'une des plates-formes 15 algorithmes de d'extraction / datamining différents. Oracle. Computer Associates est plus connu pour ses offres de sécurité. assez réputée.. qui s'étend sur la partie middleware en intégrant aussi les transactions. En outre. Business Objects. Informix. Crystal Decisions. Kana. Package complet dédié à SAP et à la collection de modules MySAP. Hyperion.Extract Parfois citée comme plate-forme ETL de référence par certains acteurs. ainsi que les middleware MQ pour aller plus loin. BI/Suite prolonge le portail. transformation de données les plus complètes et répandues. SAP R3 et BW. Oracle Financials. Le roadmap prévoit l'intégration prochaine à des acteurs comme Brio. Teradata et IBM DB2.. Sybase. Oracle. de surveillance et de gestion d'infrastructures réseaux/informatiques. Acta était le fournisseur historique du premier connecteur à SAP.. Informatica s'est récemment engagé sur le créneau des applications analytiques. Oracle. une offre de business intelligence classique.Principaux ETL (JDNet) Business Objects ActaWorks Issue du rachat d'Acta. support de MQ Series. vaste de connecteurs spécifiques aux sources de données pour consolider tous les principaux entrepôts de données. En EAI: Siebel. Librairies pour toutes les bases de données cidessous. Ascential Software DataStage XE Plus de 40 connecteurs natifs vers des sources de données.shtml . dont IBM/Informix. les SGBDR.). Interfaçage avec Cognos. sauf Hyperion. Mais son offre ETL s'avère assez complète y compris pour maintenir l'intégrité des métadonnées sur toute la chaîne de traitement.. HTML et fichiers txt. BO. PeopleSoft HRMS. Oracle.

w Base spécialisée n n w Machine support parallèle n n n Le multidimensionnel n . Gérer l'entrepôt w Base relationnelle n n n Support de larges volumes (qq 100 gigas à qq téras) Historisation des données (fenêtres) Importance des agrégats et chargements en blocs Base multidimensionnelle Combinaison des deux Multiprocesseurs Mémoire partagée. cluster. bus partagé.4. etc.

mais souvent encore en version 7. Se reporter aux autres catégories pour savoir qui accède à quelles sources.0 qui peut aussi être attaquée par la plupart des solutions du commerce qui fonctionnent sous Windows Sybase Adaptive Server IQ Même remarque que pour Hyperion. pour des besoins en rapport avec la business intelligence. Oracle 9i est retaillée dans une optique qui approfondit les fonctions dédiées à la business intelligence. Possibilité de compléter avec l'offre analytique d'Hyperion ou des solutions tierces. En rachetant Informix et son activité bases de données. Même remarque que pour Hyperion et Microsoft. Big Blue a récupéré ses entrepôts de données multidimensionnels: XPS (datawarehouse). Microsoft SQL Server 2000 La version la plus récente de la SGBDR (base de données relationnelle) de Microsoft. Oracle et Sybase. A enrichi ses fonctions OLAP avec Analysis Services.shtml . Se renseigner sur les solutions qui peuvent accéder nativement aux différents SGBD OLAP propriétaires d'Informix. et Red Brick (datamart). Les solutions qui accèdent à Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase. car Oracle 8i est encore très répandue. SQL Server est très répandue. donc aussi le CRM analytique. IQ est la version déclinée de la base de données relationnelle de Sybase. Même remarque que pour Hyperion.com/0110/011025_crm_tableau2. et une extension data mining.Principaux systèmes (Jdnet) Hyperion Essbase EssBase est l'entrepôt de données multidimensionnel de référence sur le marché de la business intelligence. Réputé notamment pour ses capacités de montée en charge sous Unix et Windows 2000. NCR Teradata Database Entrepôt de données multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Oracle Oracle 9i Dernière version de la base de données relationnelle de l'éditeur. Même remarque que pour Hyperion. Oracle et Microsoft http://solutions.journaldunet. Informix XPS et Red Brick DB2/Universal DataBase est la base de données relationnelle d'IBM. Peut également fonctionner comme entrepôt de données OLAP. IBM DB2. en particulier pour DB2 qui est relativement répandue. IBM DB2/UDB. Microsoft. Ce n'est pas à la base de données de se connecter aux applications mais aux applications de se connecter à la base de données. Parmi celles-ci: l'accès direct aux cubes via le web. Les accès vers Essbase sont nombreux. IBM DB2.

Le multidimensionnel w Dimensions: n n n n n w Indicateurs: n Temps Géographie Produits Clients Canaux de ventes. n n n Nombre d’unités vendues CA Coût Marge.........  Le multidimensionnel .

Cube de données Date NumFou NumPro 2000 250 P1 P2 200 F1 P3 12 0 2001 300 500 400 15 2002 350 600 300 0 10 0 F2 Le multidimensionnel .

Le data cube et les dimensions Axe d'analyse: La géographie (Pays . Axe d'analyse: Les produits (classe. mois.. marge..ville) Variables analysées: Nb unités. produit) Axe d'analyse: Le temps (Année. semaine) Le multidimensionnel Axes d'analyse: dimensions Variables analysées: indicateurs . trimestre.région . CA.

La granularité des dimensions Temps Jours Mois Trimestres Années Géographie Villes Régions Pays Produits Le multidimensionnel Numéros Types Gamme s Marques .

Exemple w Montant des ventes fonction de (Mois. région. Produit) Granularité des dimensions : Ré n gio Type Région Année Trimestre Mois Semaine Jour Catégorie Pays Produit Produit Ville Magasin Le multidimensionnel Mois .

La navigation multidimensionnelle Projection en 2 dimensions Produits Coupe d ’un cube Produits pour une région donnée CA Région CA Temps en semaines Réduction selon 1 dimension Zoom selon une dimension Produits Franc e Su d Marsei lle CA Temps en mois Est Lyon Ou est Nice Le multidimensionnel .

Projeter(Région. Produit) w Pivot : n Tourne le cube pour visualiser une face l (Région.Produit)(RégionM MoisM w Le multidimensionnel .L'algèbre des cubes w Roll up : n Agréger selon une dimension l Semaine  Mois w Drill down : n Détailler selon une dimension l Mois  Memaine w Slice et Dice: n Sélection et projection selon 1 axe l Mois = 04-2003 .

il est possible d'agréger selon une dimension tournante w On obtient un treillis de vues (calculable en SQL) NumPro.Les vues d'un cube w Partant d'un cube 3D. NumFou NumPro. Date NumPro Le multidimensionnel NumFou Date . Date NumPro. NumFou. Date NumFou.

Bilan Gestion w La modélisation multidimensionnelle est adaptée à l ’analyse de données w Le datacube est au centre du processus décisionnel n n n transformation et visualisation 3D une algèbre du cube De multiples techniques d'optimisation Combien de datacubes à partir de N variables ? w Questions ? n Le multidimensionnel .

Implémentation w Multidimensional OLAP (MOLAP) n implémentent les cubes comme des matrices en mémoire implémentent les cubes comme des tables relationnelles certaines données en matrices en mémoires. d'autres en tables sur disques w Relational OLAP (ROLAP) n w Hybrid systems (HOLAP ou MROLAP) n Implémentation .5.

ROLAP versus MOLAP SQL+Cube SQL+Cube Opérateurs décisionnels Cache Cube Analyseur Optimiseur Opérateurs relationnels Opérateurs décisionnels Cache SGBD SQL Analyseur Optimiseur Opérateurs relationnels Cache SGBD SGBD Implémentation SGBD .

Rollup. w Nouvelles fonctions de SQL n Moving Average.Evolution des SGBD w Utilisation intensive des calculs d'agrégats n Optimisation. n Fonctions statistiques: l Pivot. Corrélation … Implémentation . . Covariance. Standard déviation.. Cube.. concrétisation Fonctions agrégats l Rank.

Vues Concrètes w CREATE MATERIALIZED VIEW <Table> (column_list) AS SELECT … w La vue est pré-calculée par le SGBD n Pré-calcul des agrégats et jointures w Elle est maintenue lors des mises à jour w Les requêtes sont reformulées contre la vue d'une manière transparente pour l'usager Implémentation .

avg(sal) avg_sal FROM emp GROUP BY job. salary) CREATE MATERIALIZEDVIEW job_avg_sal AS select job. SELECT job FROM job_avg_sal WHERE avg_sal > 10000 w Définition de la vue:      w Interrogation de la vue:  Implémentation .Exemple w Table:  Emp(#emp. job.

n-2. n.Extension de SQL w ROLLUP: n n n w CUBE: n SELECT <column list> FROM <table…> GROUP BY ROLLUP(column _list). n-1. n étant le nombre de colonne de groupage Implémentation n SELECT <column list> FROM <table…> GROUP BY CUBE(column_li st). n n w Crée des agrégats à n+1 niveaux.…0 w Crée 2n combinaisons d'agrégats. n étant le nombre de colonne de groupage .

Lieu. Magasin WITH CUBE Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue - Lieu Paris Naples Paris Naples Rome Naples Rome Paris Naples Rome Quantite 18 9 27 12 5 14 31 1 4 5 63 30 15 18 . SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal.Exemple CUBE Ani mal Chien Chat Tortue Chien Chat Chien Tortue L ieu Paris Paris Rome Rome Naples Naples Naples Quant ite 12 18 4 14 9 5 1 Implémentation w SELECT Animal.

SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal. Lieu.Exemple ROLLUP Animal Chien Chat Tortue Chien Chat Chien Tortue Lieu Paris Paris Rome Rome Naples Naples Naples Quantite 12 18 4 14 9 5 1 Implémentation w SELECT Animal.Magasin WITH ROLLUP Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue - Lieu Paris Naples Paris Naples Rome Naples Rome - Quantite 18 9 27 12 5 14 31 1 4 5 63 .

type de données. Méta-modèle operation). association. contraintes Modèle Extensions: métaclasses. package. métarelations Instance UML CW M EJ B Vente numv numpro quantité prixtot Méta-données w Défini en UML w Echangé en XML (XMi) Implémentation Objet .Méta-données w Standard en émergence CWM n Common Warehouse Meta-model Méta-méta-modèle MOF w Basé sur le méta-modèle objet de l'OMG (MOF) n n Constructions de base: classe (attribut.

Les Packages CWM Management Analysis Resources Warehouse Process Transformati on ObjectOriented (ObjectMod el) Warehouse Operation Data Minin g Information Business Visualizatio Nomenclatu n re Multi Dimensional XML OLA P Relationa l RecordOriented Key s Ind ex Foundation Business Data Informati Type on s Expressio ns Type Software Mappin Deployme g nt (Core.. Relationships. Behavioral. .. Instance) ObjectModel Implémentation Chaque package est défini en UML .

Quelques outils OLAP w Oracle n n n w Cognos OLAP API = Datacube Express = Analyse Report = Reporting BusinessQuery = Requêtage BusinessObject = Requêtage + Analyse + Reporting WebIntelligence = Datacube n n n Impromptu = Reporting Powerplay = Datacube Query = Requêtage ESS Base = Base MOLAP ESS Analysis= Analyse + Datacube w Business Object n n w Hyperion n n  n Implémentation .

Le marché du BI BI= Business Intelligence Conclusion Data PRO Users Survey .6.

Les Data Trucs w Datawarehouse n entrepôt des données historisées de l'entreprise magasin de données ciblé sur un ou plusieurs sujets exploration des données afin de découvrir des connaissances cube de présentation d'unités selon 3 dimensions entrepôt des données collectées sur le web w Datamart n w Datamining n w Datacube n w Datawebhouse n Conclusion .

Sign up to vote on this title
UsefulNot useful