C. Le data warehouse 1.

définition Bill Inmon, père fondateur du data warehouse en donne une définition cf livre « using the data warehouse » 1994 « Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision » a. données thématiques La vocation du data warehouse est de prendre des décisions autours des activités majeures de l’entreprise. Les données sont ainsi structurées autour de thèmes ce qui facilite l’analyse transversale. Pour éviter le doublonages des données, on regroupe les différents sujets dans une structure commune. Si le sujet client contient des informations dans les sujets maketing, ventes, analyse financière ; alors on regroupera ces trois sujets au sein du thème client. Dès lors, chaque donnée n’est présente qu’à un endroit, le data warehouse joue bien un rôle de point focal.

Image 1.4.1 dwh - données orientées sujet b. données intégrées Les données sont mises en forme selon un standard afin d’obtenir la transversalité recherchée. Cela nécéssite une forte normalisation, une bonne gestion des référentiels et de la cohérence, une parfaite maitrise de la sémantique et des règles de gestion des données manipulées. Voici le contexte dans lequel s’inscrit l’intégration des données : lors de l’alimentation des données, ces dernieres sont hétérogènes et proviennent de systèmes opérationnels différents (ETL, Best of Breed). Il faut doter ces données d’une codification unique et pertinente afin qu’elles puissent aisément s’intégrer dans le data warehouse. Il faudra donc faire appel à des conventions de nomage, des structures de codage, qualifier les mesures et réaliser l’intégration de la sémantique.

Exemple d’unification de codage : la donnée Homme ou Femme a diverses codifications selon les sources. Cette notion sopulève le problème de la granularité des données : le niveau de détail des bases de données de production n’est pas celui du data warehouse. Ce sujet sera traité dans le seconde partie de ce mémoire dans la partie extraction des données verif si c bonne partie c. données non volatiles Les données intégrées dans l’entrepot le sont Ad Vitam Eternam et ne peuvent subir aucune altération. Cela se justifie pour assurer la fiabilité des résultats des requêtes. Ainsi, une même requête lancée à plusieurs mois d’intervalle donnera toujours les mêmes résultats. Cela permet au data warehouse d’acquérir au cours du temps un historique détaillé de l’activité de l’entreprise. Ceci s’oppose fondamentalement à la logique des systèmes de production qui remettent à jour les données : elles sont de nature volatiles. d. données historisées L’ensemble des données qui sont intégrées dans l’entrepot contiennent un ensemble de caractéristiques qui sont datées. Ceci permet de pouvoir comparer l’évolution des résultats d’un élément (par exemple : les ventes de tel magasin). Si tel n’était pas le cas, cette analyse ne serait pas possible, le suivi de l’évolution non plus. Cela rejoint la notion de non volatilité expliqué précédemment. 2. Structure des données Au sein du Data Warehouse, les données sont organisées en quatre classes selon un axe historique et un axe synthétique : les données détaillées, agrégés, historisées et les méta données Mettre image structure dwh (differentes types données) a. les données détaillées

Elles constituent le socle de l’entrepot de données et sont directement issues des systèmes de production. Elles correspondent aux évènements les plus récents. Même si elles sont détaillées, elles ne sont pas forcément identiques de celles des bases de production. En effet, le niveau d’agrégation entre ces deux bases de données n’est pas le même : les progiciels fonctionnement avec des données exhaustives et éparpillés. En revanche, l’entrepot n’a pas besoin d’avoir un niveau de détail si élevé : c’est pourquoi il faudrat définir des règles d’agrégation. Par exemple en grande distribution, les bases de production raisonnent en référence produit alors qu’en décisionnel, la référence de base est le ticket de caisse. Ce niveau d’analyse permet de réaliser des comparaisons avec les périodes antérieures. b.données agrégées a revoir car copier collé d’un mémoireElles correspondent à des éléments d’analyse représentatifs des besoins utilisateurs. Elles constituent déjà un résultat d’analyse et une synthèse de l’information contenue dans le système décisionnel, et doivent être facilement accessibles et compréhensibles. La facilité d’accès est apportée par des structures multidimensionnelles qui permettent aux utilisateurs de naviguer dans les données suivant une logique intuitive, avec des performances optimales. (Certains SGBD du marché sont conçus pour faciliter la mise en place des agrégations et la navigation au sein de celles-ci). La définition complète de l’information doit être mise à la disposition de l’utilisateur pour une bonne compréhension. Dans le cas d’un agrégat, l’information est composée du contenu présenté (moyenne des ventes, …) et de l’unité (par mois, par produit,…). c. Les métadonnées A revoir Le contenu du data warehouse nécéssite un suivi administratif afin de controler son contenu lors de son alimentation, sa mise à jour et son utilisation. En effet, l’alimentation est réalisée depuis des sources de nature diverses et l’actualisation nécéssite au système d’identifier les données concernées afin de conserver la fiabilité des données de l’entrepot. Les métadonnées sont des « informations que l’on donne sur les données ». Elles permettent de décrire les règles ou les process liées aux données.

Les métadonnées sont des « informations que l’on donne sur les données ». Ces précisions sont de plusieurs natures : Les méta données techniques comprenent l’ensemble des informations produites par le processus de transformation de la donnée brute en information. Il s'agit des informations liées à la structure de la donnée (nom, format, taille, date de création,...) Les méta données fonctionnelles comprennent l’ensemble des caractéristiques différenciant la donnée brute de l’information finale. On compte en particulier les règles d'agrégation, de consolidation et les dates de mise à jour. Enfin les métadonnées opérationnelles comprenent l’ensemble des caractéristiques liées à l’usage qui est fait de l’information : la fréquence de consultation, les utilisateurs, la sécurité,... vérif quelle est la bonne def meta données - Comme évoqué précedemment, les données sources sont hétérogènes car elles proviennent des bases de données relationnelles des systèmes sources. Pour assurer l’intégration des données, il est nécéssaire d’avoir un dictionnaire des données qui définit d. Les données historisées a revoir car proche du bouquin Comme évoqué précedemment, les données au sein du data warehouse comportent toutes une date à laquelle se rattache une combinaison d’attributs et des données chiffrées : les ratios. Sachant que l’ensemble des données sont conservées, on peu pour les données anciennes les rassembler afin qu’elles soient moins volumineuses. On pourra stocker ces données sur des supports moins couteux et consultables sur demande. 3. Les datamarts ou magasin de données Le risque d’echec du data warehouse est sa difficulté d’utilisation : l’attention est portée sur sa problématique technique. En revanche, le Data Mart minimise la compléxité informatique et se concentre sur les besoins utilisateurs. Le Data Mart est une base de données qui se grephe au data warehouse et qui reprend les données qu’il contient. Son approche est plus simple car elle est centrée sur un objectif commun à un groupe relativement limité d’utilisateurs. Les données du data warehouse peuvent être dupliquées dans plusieurs data marts, ce qui représente une différence fondamentale avec l’entrepot. Le magasin de données ne contient

que les données dont les utilisateurs ont besoin ; il devient alors très simple d’exploiter son contenu.
Data Warehouse Cible utilisateur Implication service informatique Base de données d'entreprise Modèles de données Champ applicatif sources de données stockage Taille Temps de mise en place Toute l’entreprise Elevée SQL type serveur A l'échelle de l'entreprise molti sujets, neutre multiples Bases de données De centaines de Go à des dixaines de To 9 à 18 mois Data Mart Département faible ou moyen SQL milieu de gamme, bases multidimensionnelles Département quelques sujets, spécifique quelques unes Plusieures bases distribuées Centaines de Go 6 à 12 mois

Les Data Marts sont petits Les Data Marts sont moins complexes et plus facile à déployer que les data warehouses Les Data Marts peuvent évoluer facilement vers un Data Warehouse Les différents Data Marts indépendants peuvent être dynamiquement couplés pour se métamorphoser en Data Warehouse Les Data Marts ne se résument qu’à une seule information métier (exemple: les ventes) Les Data Marts sont plus flexibles que les Data Warehouse Les Data Marts sont un nouveau concept

Les Sept Mythes du Data Mart source Gartner Groupe 4. Les cubes 5. La navigation OLAP

Sign up to vote on this title
UsefulNot useful