Professional Documents
Culture Documents
OLAP et SOLAP
1
Table des matières
Entrepôts de données :
– Systèmes transactionnels vs systèmes d’analyse
– Définition d’un entrepôt de données
– Définition d’un marché de données
– Composantes d’un entrepôt de données
– Différentes architectures d’entrepôt de données
– Approches d’implantation
– Centralisation vs distribution
– Entrepôts de données spatiales
– Outils clients d’un entrepôt de données
2
Table des matières
OLAP :
– Définition
– Concepts
– Opérations OLAP
SOLAP :
– Définition
– Concepts
3
Entrepôts de données
4
Le marché traditionnel
5
Systèmes transactionnels
8
Systèmes transactionnels
9
Systèmes transactionnels
10
Systèmes transactionnels
• Ajout
• Effacement
• Mise à jour
des enregistrements (habituellement, gros
volume de transactions impliquant chacune
un petit volume de données détaillées)
13
Systèmes d’analyse
14
Entrepôts de données
15
Entrepôts de données
Reports
&
Appli.
Appli.
Appli.
OLAP Analysis
ETL
OLTP DW
DM Aides à
la décision
16
Entrepôts de données
• Sujets touchant une organisation :
– Par exemple, les ventes et les produits
• Données intégrées :
– Proviennent de différentes sources : systèmes
transactionnels, systèmes d’archivage, sources externes
à l’organisation
• Données qui varient dans le temps :
– Données courantes et données historiques
• Données non-volatiles :
– Aucune mise à jour, seulement des ajouts
• Données qui servent à supporter les processus de
décision :
– Serviront à l’analyse 17
Entrepôts de données
20
Composantes de l’entrepôt
I I- -Gestion I et VI : activités d’extraction, de chargement, de
Gestiondes
desdonnées
données
mise à jour et de rafraîchissement des données
II-II- III-
III- IV-
IV- V-
V-
Sources Construc- Construc- Accès II: données des systèmes transactionnels,
Sources Construc- Construc- Accès
de
de tion
tionde de tion
tiondes
des etet internes ou externes à l’entreprise
données l’entrepôt marchés
l’entrepôt marchés usage
usage
données
III et IV: outils de modélisation, de nettoyage et
VI-
d’intégration
VI-Gestion
Gestiondes
desmétadonnées
métadonnées
V: outils de création de rapports, requêteurs,
VII-
VII-Transport
Transport OLAP et de forage de données (clients)
VIII-
VIII-Infrastructure
Infrastructure VII : réseaux, protocoles de communication,
logiciels middleware* et outils de réplication
Peut déjà exister dans l ’entreprise
Tiré de Gill & Rao, 1996 VIII: hardware, système d’exploitation et SGBD
21
*Middleware
• Le middleware est un logiciel qui permet à une application
d’interopérer avec d’autres logiciels dans un environnement client-
serveur.
• Il existe différents types de middlewares pour répondre à
différents objectifs.
• Ces outils doivent respecter des normes reconnues pour parvenir
à interopérer.
22
Architecture des entrepôts
de données
• Une architecture d’entrepôt de données possède
les caractéristiques suivantes :
– les données sources sont extraites de systèmes, de bases
de données et de fichiers
– les données sources sont nettoyées, transformées et
intégrées* avant d’être stockées dans l’entrepôt
– l’entrepôt est en lecture seulement et est défini
spécifiquement pour la prise de décision
organisationnelle
– les usagers accèdent à l’entrepôt à partir d’interfaces et
d’applications (clients)
23
Architecture des entrepôts
de données
* Inconsistances :
– d’identification
– de format
– sémantiques
– de domaines
– d’échelles
24
Architecture centralisée
(Corporated architecture)
Entrepôt de données
Systèmes centralisé, unique et intégré
transactionnels de l’organisation
Clients distribués
de l’organisation
Département B
Département C
Entrepôt de données
de l’organisation
Systèmes
transactionnels Marchés de données Clients
de l’organisation distribués par distribués
département
Département A
Département B
Département C
Entrepôt de données
(données détaillées)
Systèmes transactionnels Marchés de données Clients distribués
(données très détaillées) (données résumées et agrégées)
Département A
Département B
Département C
Entrepôt Entrepôt
(données détaillées) (données résumées)
Systèmes Clients
transactionnels Marchés de données distribués
(données très détaillées) (données résumées et agrégées)
Entrepôt de
données
Marchés de
données
Bottom up
29
Approches d’implantation
Approche Bottom up
Avantages :
• permet de répondre rapidement à des besoins extrêmement urgents dans des départements
où la gestion est décentralisée
• utile lorsque le budget alloué pour le déploiement de l'architecture ne permet pas la
construction d'un système global intégré
• permet de voir des résultats à court terme
• permet de justifier la poursuite des développements plus globaux
• nécessite des coûts moindres en termes d’équipements et autres ressources à court terme
• peut être utilisée lorsque la gestion des données est déjà décentralisée et que les données
gérées sont propres à chacun des groupes de l’organisation
Inconvénients :
• peut entraîner des problèmes d’évolutivité vers une architecture plus robuste
• doit faire partie d’un processus global pour être réussi
• des problèmes de redondance et d’inconsistances sont possibles
30
Approches d’implantation
Entrepôt de
données
Marchés de
données
Top down
31
Approches d’implantation
Inconvénients :
• demande des efforts très importants de planification, d’analyse et de conception
au début du projet
• coût de réalisation significatif
• présente des délais avant que l’implantation finale puisse être fonctionnelle
• retour d’investissement et bénéfices visibles seulement à long terme
• demande une bonne coordination entre les différents groupes de l’organisation et
les consensus peuvent être difficiles à obtenir 32
Entrepôts physiques et virtuels
33
Logiciels
• CubeWerx CubeStor
• Hyperion Essbase
• IBM Red Brick Warehouse
• NCR Teradata Warehouse
• …
34
Entrepôts de données spatiales
35
Entrepôts de données spatiales
38
OLAP
39
OLAP
40
OLAP
• Catégorie de logiciels :
– S’exprime par une grande quantité de produits
logiciels disponibles sur le marché
• Exploration et analyse rapide :
– OLAP vise à assister l’usager dans son analyse
en lui facilitant l’exploration de ses données et
en lui donnant la possibilité de le faire
rapidement
Rapidité et facilité
41
OLAP
• Facilité
– L’usager n’a pas à maîtriser des langages
d’interrogation et des interfaces complexes
– L’usager interroge directement les données, en
interagissant avec celles-ci
• Rapidité
– OLAP exploite une dénormalisation maximale des
données, sous la forme d’une pré-agrégation stockée
– L’usager devient opérationnel en très peu de
temps
L’usager peut se concentrer sur son analyse
et non sur le processus (les moyens utilisés
pour l’analyse) 42
OLAP
• Approche multidimensionnelle :
– Basée sur des thèmes d’analyse (dimensions)
– Plus intuitive
• Plusieurs niveaux d’agrégation :
– Les données peuvent être groupées à différents niveaux
de granularité (les regroupements sont pré-calculés, par
exemple, le total des ventes pour le mois dernier calculé
à partir de la somme de toutes les ventes du mois).
– Granularité : niveau de détail des données
emmagasinées dans une base de données.
43
Composantes OLAP
• L’architecture OLAP consiste en trois services :
Base de données :
– Doit supporter les données agrégées ou résumées
– Peut provenir d’un entrepôt ou d’un marché de données*
– Doit posséder une structure multidimensionnelle (SGDB
multidimensionnel ou relationnel)
Serveur OLAP :
– Gère la structure multidimensionnelle dans le SGBD
– Gère l’accès aux données de la part des usagers
Module client :
– Permet aux usagers de manipuler et d’explorer les données
– Affiche les données sous forme de graphiques statistiques et de tableaux
• Selon le type de base de données accédé, plusieurs configurations sont
possibles : multidimensionnelle, relationnelle ou hybride
44
Opérations OLAP
OLTP OLAP
(On-line transaction processing) (On-line analytical processing)
♦ Priorité à la sécurité et l’intégrité ♦ Priorité à l’analyse et l’exploration
des données. des données
♦ Optimisation du rapport “espace de ♦ Optimisation du temps de réponse
stockage vs. quantité de données” aux requêtes (redondance
(non-redondance des données). encouragée s’il y a gain de
♦ BD mise à jour fréquemment performance)
(transactions). ♦ Gestion de données pré-agrégées,
en mode lecture (mise à jour
contrôlée)
46
OLTP vs OLAP
OLTP OLAP
(On-line transaction processing) (On-line analytical processing)
♦ Outil de requête tributaire de la ♦ Absence d’outil de requête i.e.
structure de données (un usager l’usager interagit directement avec
doit connaître la structure de la les données
base de données pour l’interroger
efficacement). ♦ Requêtes principalement du type
♦ Requêtes “non-agrégatives” i.e. “agrégatif” i.e. calculs de totaux,
visitent peu d’enregistrements, variance, maxima et minima, etc…
mais mettent à contribution les
techniques d’indexation pour
retourner un nombre relativement
restreint d’enregistrements
répondant à certains critères.
47
SOLAP
48
SOLAP
49
SOLAP
51
Exemple d’interface SOLAP
52