Professional Documents
Culture Documents
Karima TEKAYA
Assistante en informatique
Karima.Tekaya@.isi.rnu.tn
Abdelaziz ABDELLATIF
Maître-assistant en Informatique
abdelaziz.abdellatif@fst.rnu.tn
Adresse professionnelle
Faculté des sciences de Tunis, Département informatique,
Campus universitaire - 2092 Manar II
Résumé : Les utilisateurs des data warehouses ne cessent d’augmenter. A l’image des entreprises,
ces utilisateurs sont de plus en plus répartis géographiquement sur plusieurs sites. Les data
warehouses centralisés ne sont donc plus adaptés à ce genre d’entreprises. Pour répondre à ce
nouveau besoin, nous avons proposé une démarche de modélisation de la répartition des données
d’un Data Warehouse. Celle-ci, se base essentiellement sur un ensemble de matrices permettant la
modélisation de l'intégration logique des données du Data Warehouse d'un côté et leur répartition
entre les différents Data Marts de l'organisation d'un autre côté.
Summary: The users of Data Warehouses do not cease increasing. With the image of the
companies, these users are divided more and more geographically on several sites. Centralized
Data Warehouses thus are not adapted more to this kind of companies. To meet this new
requirement, we proposed a methodology of modelling the distribution of the data of a Data
Warehouse. This one is based primarily on a set of matrices allowing the modelling of the
integration of the data in a Data Warehouse. Secondly, their distribution between different Data
Marts.
1
1- INTRODUCTION géographiquement. Ceci a eu comme
conséquence la décentralisation du
Un Data Warehouse (DW) répond aux système décisionnel.
problèmes de données surabondantes et Les besoins informationnels et les
localisées sur de multiples systèmes utilisations des données peuvent être
hétérogènes. Le DW est un entrepôt de différentes d’un site à un autre. De ce fait,
données permettant un stockage une organisation centralisée des données
intermédiaire des données issues des peut être non adéquate à cette nouvelle
applications de production, dans architecture répartie. Un DW réparti
lesquelles les utilisateurs finaux puisent pourra répondre plus efficacement aux
avec des outils de restitution et d'analyse. besoins des utilisateurs. Les données
L'intégration du DW dans une structure peuvent être organisées par sujet et une
unique a pour but d’éviter aux données meilleure utilisation du DW est garantie.
concernées par plusieurs sujets d'être La répartition d’un DW en plusieurs DM
dupliquées. Le DW est fragmenté en est la solution la plus adéquate pour un
plusieurs bases appelées Data Mart(DM). système différé puisqu’elle permet de
Un Data Mart est l’implémentation d’un rapprocher les données aux utilisateurs et
DW pour un domaine bien spécifique. En améliorer l’organisation des données.
effet, c’est un sous ensemble d’un DW Plusieurs contraintes techniques peuvent
[1]. être rajoutées :
On peut avoir plusieurs Data Mart au sein − La communication des informations
d’une même entreprise [2]. Ces data marts stratégiques aux différents décideurs
peuvent être répartis par département, les s’avère de plus en plus coûteuse de
données utilisées sont extraites à partir du point de vu financier (coût des accès)
DW principal (centralisé). et temporel (temps d’accès).
2- PROBLEMATIQUE − Le DW est centralisé dans une base
unique, le stockage des données sur un
Un système d’information est composé ordinateur central peut souffrir d’une
d’une composante décisionnelle et d’une très longue charge de traitement ce qui
composante opérationnelle. Le système peut influer sur sa performance.
d’information opérationnel englobe toutes
les informations concernant l’activité de − En plus, le volume du DW augmente
l’entreprise, ces données sont stockées très rapidement ce qui ralentit les accès
dans une base appelée base de production. et gonfle le stockage [7], [8] et [9].
Le système d’information décisionnel − D’autre part, la centralisation des
englobe des informations provenant de données pourrait devenir le point
bases de production ou de sources sensible du système informatique.
diverses et externes à l’entreprise servant De ces faits, la centralisation d’un DW
comme support d’aide à la décision. peut se refléter négativement sur sa
L’ensemble de ces informations est stocké performance et ses fins. Pour faire face à
dans le DW. ces différents problèmes, le système
Le système d’information est en opérationnel opte pour l’adaptation des
évolution, il fait face aujourd’hui aux bases de données réparties. Le système
problèmes de décentralisation des d’information décisionnel opte pour la
entreprises, les utilisateurs sont de plus en répartition du DW en DM. Plusieurs
plus nombreux, ils exercent des activités démarches de modélisation ont été
hétérogènes et appartiennent proposées pour modéliser les bases de
généralement à des sites éloignés production réparties. Par contre, aucune
2
démarche exhaustive n’a été proposée Dans [4] une démarche exhaustive a été
pour la modélisation de la répartition des proposée pour modéliser l’intégration des
données d’un DW. données d’un DW (Figure 1). Celle-ci se
base essentiellement sur l’ajout d’un
3- CONTRIBUTION modèle d’intégration des données
permettant de modéliser l’intégration des
La contribution apportée par cet article est données (MID) dans le DW. Ce modèle
de proposer une démarche de sert à identifier pour les données du
modélisation de la répartition des données modèle logique de données obtenu : leurs
d’un DW. Celle-ci se base essentiellement sources de données, les transformations
sur les niveaux de modélisation éventuelles qu’elles doivent subir, leurs
classiques, en ajoutant un ensemble de modes de rafraîchissement dans le DW et
concepts de base, intégrer de nouveaux leurs fréquences d’utilisation. Dans [12]
modèles et proposer un formalisme de une démarche exhaustive de modélisation
présentation. de la répartition des données d’une base
Dans la section suivante, nous allons citer de production a été bien développée
l’état de l’art. Dans la section 5, nous (Figure1). Celle-ci se base essentiellement
allons proposer les concepts de base de sur l’ajout d’un modèle de répartition des
notre démarche, les modèles nécessaires données (MRD) en tenant compte d’un
et le formalisme proposé. processus de répartition et en intégrant un
programme d’optimisation des différentes
4- ETAT DE L’ART allocations en fonction des débits binaires
échangés, les fiabilités des échanges et les
Les méthodologies trouvées dans la caractéristiques du réseau. Dans [16], une
littérature ont généralement pour objectif adaptation du modèle ASM (Abstract
d'intégrer le DW dans une structure State Machines) a été éffectuée pour
unique et ont comme résultat un entrepôt modéliser un data warehouse réparti.
de données centralisé [3] et [4]. Cet
entrepôt est appelé DW, s’il est 5- SOLUTION PROPOSEE
généralisé aux activités de l’entreprise, ou
bien DM s’il est spécifique à un 5.1- Concepts de base
département particulier. Nous visons par cette démarche le côté
On a constaté dans l’état de l’art que tous logique et organisationnel des données
les travaux concernés par la modélisation qui n’a pas été bien mis en évidence dans
de la réparation des données des DW sont l’état de l’art. L’objectif visé est, donc, de
orientés vers la modélisation physique [5] modéliser les données contenues dans un
et [6]. Des algorithmes de répartition DW central et en même temps leur
verticale des données ont été proposées répartition entre plusieurs bases de
dans [14] et [15]. L’idée de répartition des données distantes qui seront les futurs
données d’un DW a été évoquée par DM de l’entreprise.
Noaman, A.Y. et K. Barker dans [7] et Pour généraliser notre démarche, nous
[8]. Ils se sont basés sur l’architecture proposons un formalisme que nous
ANSI/SPARC pour la modélisation des pourrons adapter à n’importe quelle
données des DW. La démarche proposée approche de conception. Généralement la
par ces auteurs se base essentiellement sur modélisation d’un système d’information
l’approche Top/Down. Ils ont aussi se base sur trois niveaux :
développé un algorithme de fragmentation
horizontale des tables de faits dans [9].
3
Figure 1 : Démarches de modélisation (Etat de l’art)
4
5.2- Modèles − Une matrice de liaison inter-site
Cette méthodologie se base sur six (MLIS)
modèles (Figure 2) répartis selon trois
niveaux : niveau conceptuel, niveau La MLIS permet de décrire la structure
logique (enrichi) et niveau physique. de l’entreprise et son organisation de
point de vue géographique. Cette
Pour choisir l’architecture à mettre en description est nécessaire pour choisir la
place, nous proposons un modèle meilleure architecture à mettre en place.
introductif appelé Modèle Structurel et
Organisationnel de l’Entreprise (MSOE). Pour élaborer le MSOE, nous allons
commencer tout d’abord par analyser la
Au niveau conceptuel nous gardons le structure de l’entreprise. Ceci revient à
Modèle Conceptuel de Données (MCD) trouver des réponses aux questions
proposé dans les approches classiques. suivantes :
Au niveau logique, Le modèle logique de
Données (MLD) sera généré à partir du
MCD.
A ce niveau, nous proposons un
enrichissement à travers deux modèles :
Un Modèle d’Intégration Logique des
Données (MILD) et un Modèle de
Répartition Logique des Données
(MRLD).
Le MILD permet d’identifier pour chaque
donnée du MNLD, la source
correspondante et (si nécessaire) les
transformations qu’elle doit subir.
Figure 2 : Modèles proposés
Le MRLD permet d’identifier pour
1- L’entreprise est elle répartie
chaque donnée du MNLD global le DM
géographiquement ?
auquel elle sera affectée.
2- Si oui, quels sont les sites qui la
Le MILD et le MRLD seront fusionnés forment ?
pour créer un dernier modèle englobant
3- Comment ces sites sont reliés les uns
toutes les informations nécessaires pour la
aux autres ?
modélisation de la répartition des données
d’un DW. Celui-ci est appelé Modèle 4- Quels sont les moyens et les
d’Intégration Logique des Données caractéristiques des supports de
Réparties (MILDR). communication entre les sites (type de
réseau, support, protocole, débit
Au niveau physique, plusieurs Modèles binaire de transmission des données,
Physiques de Données (MPD) seront fiabilité…etc.)?
déduits. Ces derniers, représentent
Les réponses à ces questions sont
l’organisation physique des différents
résumées dans le TS (Figure 3). Le
DM.
tableau est une simple description de la
5.3- FORMALISME PROPOSE structure de l’entreprise. Il permet de
visualiser la liste des groupes de sites de
5.3.1- Le MSOE l’entreprise, triée par ordre de priorité
Pour établir le MSOE, nous proposons le décisionnelle. Pour chaque site, on
formalisme suivant : identifie son type et le groupe auquel il
appartient. Le tableau de structure est
− Un Tableau de Structure (TS)
5
important pour les étapes suivantes a choisi d’appeler Matrice des Liaisons
puisqu’il détermine la liste des sites Inter-Sites1 (MLIS1) (Figure 4).
décisionnels de l’entreprise et peut faire
l’objet d’une documentation pour S1 S2 … Sn
l’entreprise. Les sites de priorité 3 seront DB DB DB
supprimés de la liste puisqu’ils ne S1
F F F
détiennent aucun pouvoir décisionnel. DB DB DB
S2
Priorité Groupes Types Liste des F F F
(1, 2,3) de sites de sites sites DB DB DB
…
1 G1 T1 S1.1,...,S1.n F F F
2 G2 T2 S2.1,...,S2.k DB DB DB
Sn
3 G3 T3 S3.1,...,S3.j F F F
Figure 3 : Tableau De Structure Figure 4 : La MLIS1
Après avoir décrit la structuration de Cette matrice peut être améliorée (Figure
l’entreprise, il est important d’étudier son 5) par l’ajout des indicateurs caractérisant
infrastructure réseau. Cette étude consiste les débits binaires.
à identifier le type du réseau, les moyens Un débit binaire (DB) peut être : un débit
et les caractéristiques des supports de élevé (DE), un débit moyen (DMoy), un
communication entre les sites. En effet, il débit faible (DF).
s’agit d’identifier pour chaque couple de
sites s’il existe une portion du réseau qui Cette classification est basée sur la
les relie. Si cette portion existe, il faut se définition de trois intervalles de débit
renseigner sur les caractéristiques des binaire. Ensuite, suivant l’appartenance
communications entre ces deux sites. Les du DB à un intervalle parmi ces trois, un
caractéristiques qui nous semblent les débit peut être classé : (DE), (DMoy) ou
plus importantes à identifier sont la bien (DF).
fiabilité et le débit binaire.
Les modèles logiques des Data Marts
Ces deux caractéristiques diffèrent d’une décrivent l’allocation logique des
portion de réseau à une autre. En effet, différentes données du DW vers les sites
ceci dépend des supports de transmission correspondants. Cette description ne
au sein du réseau, de la distance qui prend pas en considération les besoins
sépare les deux sites, ...etc. Des d’intégration des données vis-à-vis de
statistiques sont utilisées afin de leurs sources. Les informations données
déterminer les valeurs de ces par le MSOE sont insuffisantes pour
caractéristiques. décider l’allocation d’une information
Pour la présentation de ces vers un site donné. Plusieurs critères sont
caractéristiques nous pouvons utiliser une à prendre en considération pour la
matrice carrée d’ordre n, où n est le répartition des données. Le critère le plus
nombre de sites. Cette matrice résume les important est celui de la fréquence
liaisons entre les différents sites de d’utilisation. On rappelle à cet effet, que
l’entreprise. Chaque cellule de cette les données du DW sont utilisées
matrice contient le débit binaire échangé seulement en consultation.
et la fiabilité de la portion du réseau liant De ce fait, il faut tout d’abord ressortir les
les deux sites correspondants. Elle différents traitements possibles qui seront
représente donc, l’existence d’une liaison exécutés par les sites de l’entreprise. Pour
entre deux sites quelconques. Une cellule chaque site, on va énoncer les utilisations
vide indique l’absence de liaison entre les possibles des différentes données par les
deux sites. Nous pouvons résumer ces traitements. Les données sont des tables
différentes données dans la matrice qu’on ou bien fragments de tables.
6
S1 S2 … Sn différents traitements ti classés par site.
S DE/DMoy/DF DE/DMoy/DF DE/DMoy/DF
Le résultat est l’ensemble des fragments
1 F F F
nécessaires pour les différentes
S DE/DMoy/DF DE/DM/DF DE/DM/DF
2
utilisations. Pour ce faire, nous proposons
F F F
SITES CIBLES
ti.pi FU FU FU
la matrice indique la fréquence Si …
d’utilisation de Du vis à vis de tipi ti.qi FU FU FU
...
appartenant à Si.
Total des
TU1.i TUu.i TUt.i
La matrice d’utilisation des données peut utilisations
...
correspondant. TU1.i TUu.i TUt.i
Si Pi Pi Pi
A ce niveau, nous disposons d’une liste ...
de tables, de FH, de FV et de FM, nous TU1.n TUu.n TUt.n
Sn
avons aussi la fréquence d’utilisation de Pn Pn Pn
ces données par site ainsi que leurs Figure 7 : MUD2
priorités. Nous pouvons alors, procéder à Pour allouer une donnée on cherche le site
la construction de la MAD. qui l’utilise le plus c’est à dire dont le
LA MAD total des fréquences d’utilisation est
La matrice d’allocation des données supérieur à tous les autres sites et qui est
(Figure 8) décrit pour chaque donnée, le le plus prioritaire pour son utilisation.
site dans lequel elle sera allouée ou bien, Cette méthode d’allocation peut faire
elle sera consultée. C’est une matrice l’objet d’automatisation. Ainsi, on pourra
bidimensionnelle parce qu’elle englobe : décrire l’algorithme correspondant à
Les données utilisées (Du), Les sites l’allocation des données du DW vers les
destinataires (Si). différents Data Marts de l’organisation.
8
Chaque cellule de la matrice d’allocation Ayant réalisé le MALD, la modélisation
des données indique si une donnée est une de la répartition logique des Data Mart est
Donnée Persistante (DP) ou bien Donnée achevée. Toutes les données
Consultée (DC). Une DP signifie qu’elle correspondantes à la répartition des
est allouée au site correspondant, par données sont identifiées, ces données
contre, une DC veut dire qu’elle sera juste nous permettront en partie de construire le
consultée par le site correspondant. Une MILDR. Mais, il faudra tenir compte en
cellule vide indique que la donnée n’est parallèle de l’intégration des données
pas consultée par le site et on l’appelle sources vis à vis des sources de données.
Donnée Absente (DA).
Attributs
MNLD
Sources de données TC
10
Cette matrice peut subir des modifications modélisation surtout avec la fluctuation de
selon le besoin, ceci va simplifier les mises l’environnement et avec l’extension du
à jour et renforcer la flexibilité de la besoin informationnel vis à vis du DW.
D1 TE TE TE
MLDM1
…
DM
Du x x x x TC
...
Dt
…
D1 TE TE TE
MLDMj
…
DM
Du
...
Dt
…
D1 x x x x x x TC
MLDMn
…
DM
Du TE TE TE
... x x x x x x TC
Dt
Figure 10 : Matrice de l’Intégration Logique des Données Réparties
11
données d’un DW. Cependant, quelques aux schémas physiques » DUNOD
axes de recherches restent à étudier et à informatique.(1989).
approfondir : [7] Noaman, A.Y. et K. Barker,
“Distributed Data warehouse
− Jusqu'àprésent il n'y a pas eu de Design”, (under revision for) journal
réalisation pour la solution proposée, le Submission. (2000).
travail effectué sera complété [8] Noaman, A.Y. et K. Barker,
ultérieurement par une “Distributed Data warehouse
implémentation. Architecture and design”, the
− Nous envisageons aussi une Fourteenth International Symposium
on computer and Information
amélioration du processus d’allocation
Sciences (ISCI’99), Kusadasi, Turki.
des données par la prise en compte des (1999).
caractéristiques du réseau. On pourra [9] Noaman, A.Y. et K. Barker, “A
intégrer un programme d’optimisation Horizontal Fragmentation Algorithm
permettant de donner une meilleure for the fact relation in a Distributed
allocation possible en tenant compte Data Warehouse”, the Eight
des caractéristiques du réseau et de sa International Conference on
fiabilité. Information and Knowledge
− On pourra ensuite, envisager une Management (CIKM’99), Kansas,
l’intégration d’une allocation Missouri.(1999).
[10] MESSAOUD Saloua, « Modélisation
dynamique des données et ceci par
de la répartition et de la réplication
l’intégration d’un agent intelligent qui des données». Institut Supérieur de
permet de calculer les fréquences Gestion, TunisIII, Tunisie (2000).
d’utilisation des différentes données [11] Stefano CERI, Giuseppe
par les sites de l’organisation. PELAGATTI, «Distributed Data
base: Principles and systems »,
BIBLIOGRAPHIE McGaw-hill. (1984).
[12] George Gardarin, «Bases de données
: Objets et relationnelles », Edition
[1] Ralph Kimball, «The Data EYRLLES (1997).
Warehouse has no centre», Volume 2, [13] P.O’Neil and D.Quass. “Improved
Nombre 10. (1999). query performance with variant
[2] Bill Inmon, «Data Mart does not indexes. Proceedings of the ACM
equal Data Warehouse», DM Direct. SIGMOD International Conference
(1999). on Management of Data. (1997).
[3] Jean-François Goglin; « La [14] P.O’Neil et D.Quass. Improved query
construction du data warehouse, du performance with variant indexes.
data mart au data web »; Nouvelles Proceedings of the ACM SIGMOD
Technologies Informatiques; Ed. International Conference on
HERMES. Management of Data. (1997).
[4] KOLSI Nader, « Modélisation de [15] S. Chaudhuri and V.Narasayya.
l’intégration des données d’un “Index merging”. Proceedings of the
DW ». Institut Supérieur de Gestion, International Conference on Data
TunisIII, Tunisie (2000). Engineering (ICDE). (1999).
[5] Ladjel Bellatreche, Kamalakar [16] Jane Zaho, Klaus-Dieter Schewe
Karlapalem, «Some Issues in design ACM International Conference
of Data Warehousing Systems», Proceeding Series, Proceedings of the
Department of computer Science & first Asian-Pacific conference on
Technology Clear Water Bay Conceptual modelling, Dunedin, New
Kowloon, Hong Kong.(1999). Zealand. (2004).
[6] GALACSI, « Conception De Bases
De Données : Du schéma conceptuel
12