Etude Universitaire - Repartition Des Donnees D Un DW

MODELISATION DE LA REPARTITION DES DONNEES
D’UN DATA WAREHOUSE
Karima TEKAYA
Assistante en informatique
Karima.Tekaya@.isi.rnu.tn
Abdelaziz ABDELLATIF
Maître-assistant en Informatique
abdelaziz.abdellatif@fst.rnu.tn
Adresse professionnelle
Faculté des sciences de Tunis, Département informatique,
Campus universitaire - 2092 Manar II
Résumé : Les utilisateurs des data warehouses ne cessent d’augmenter. A l’image des entreprises,
ces utilisateurs sont de plus en plus répartis géographiquement sur plusieurs sites. Les data
warehouses centralisés ne sont donc plus adaptés à ce genre d’entreprises. Pour répondre à ce
nouveau besoin, nous avons proposé une démarche de modélisation de la répartition des données
d’un Data Warehouse. Celle-ci, se base essentiellement sur un ensemble de matrices permettant la
modélisation de l'intégration logique des données du Data Warehouse d'un côté et leur répartition
entre les différents Data Marts de l'organisation d'un autre côté.
Summary: The users of Data Warehouses do not cease increasing. With the image of the
companies, these users are divided more and more geographically on several sites. Centralized
Data Warehouses thus are not adapted more to this kind of companies. To meet this new
requirement, we proposed a methodology of modelling the distribution of the data of a Data
Warehouse. This one is based primarily on a set of matrices allowing the modelling of the
integration of the data in a Data Warehouse. Secondly, their distribution between different Data
Marts.
Mots clés : Data warehouse, Data mart, Modélisation, Répartition, Intégration.
1
1- INTRODUCTION géographiquement. Ceci a eu comme
conséquence la décentralisation du
Un Data Warehouse (DW) répond aux système décisionnel.
problèmes de données surabondantes et Les besoins informationnels et les
localisées sur de multiples systèmes utilisations des données peuvent être
hétérogènes. Le DW est un entrepôt de différentes d’un site à un autre. De ce fait,
données permettant un stockage une organisation centralisée des données
intermédiaire des données issues des peut être non adéquate à cette nouvelle
applications de production, dans architecture répartie. Un DW réparti
lesquelles les utilisateurs finaux puisent pourra répondre plus efficacement aux
avec des outils de restitution et d'analyse. besoins des utilisateurs. Les données
L'intégration du DW dans une structure peuvent être organisées par sujet et une
unique a pour but d’éviter aux données meilleure utilisation du DW est garantie.
concernées par plusieurs sujets d'être La répartition d’un DW en plusieurs DM
dupliquées. Le DW est fragmenté en est la solution la plus adéquate pour un
plusieurs bases appelées Data Mart(DM). système différé puisqu’elle permet de
Un Data Mart est l’implémentation d’un rapprocher les données aux utilisateurs et
DW pour un domaine bien spécifique. En améliorer l’organisation des données.
effet, c’est un sous ensemble d’un DW Plusieurs contraintes techniques peuvent
[1]. être rajoutées :
On peut avoir plusieurs Data Mart au sein − La communication des informations
d’une même entreprise [2]. Ces data marts stratégiques aux différents décideurs
peuvent être répartis par département, les s’avère de plus en plus coûteuse de
données utilisées sont extraites à partir du point de vu financier (coût des accès)
DW principal (centralisé). et temporel (temps d’accès).
2- PROBLEMATIQUE − Le DW est centralisé dans une base
unique, le stockage des données sur un
Un système d’information est composé ordinateur central peut souffrir d’une
d’une composante décisionnelle et d’une très longue charge de traitement ce qui
composante opérationnelle. Le système peut influer sur sa performance.
d’information opérationnel englobe toutes
les informations concernant l’activité de − En plus, le volume du DW augmente
l’entreprise, ces données sont stockées très rapidement ce qui ralentit les accès
dans une base appelée base de production. et gonfle le stockage [7], [8] et [9].
Le système d’information décisionnel − D’autre part, la centralisation des
englobe des informations provenant de données pourrait devenir le point
bases de production ou de sources sensible du système informatique.
diverses et externes à l’entreprise servant De ces faits, la centralisation d’un DW
comme support d’aide à la décision. peut se refléter négativement sur sa
L’ensemble de ces informations est stocké performance et ses fins. Pour faire face à
dans le DW. ces différents problèmes, le système
Le système d’information est en opérationnel opte pour l’adaptation des
évolution, il fait face aujourd’hui aux bases de données réparties. Le système
problèmes de décentralisation des d’information décisionnel opte pour la
entreprises, les utilisateurs sont de plus en répartition du DW en DM. Plusieurs
plus nombreux, ils exercent des activités démarches de modélisation ont été
hétérogènes et appartiennent proposées pour modéliser les bases de
généralement à des sites éloignés production réparties. Par contre, aucune
2
démarche exhaustive n’a été proposée Dans [4] une démarche exhaustive a été
pour la modélisation de la répartition des proposée pour modéliser l’intégration des
données d’un DW. données d’un DW (Figure 1). Celle-ci se
base essentiellement sur l’ajout d’un
3- CONTRIBUTION modèle d’intégration des données
permettant de modéliser l’intégration des
La contribution apportée par cet article est données (MID) dans le DW. Ce modèle
de proposer une démarche de sert à identifier pour les données du
modélisation de la répartition des données modèle logique de données obtenu : leurs
d’un DW. Celle-ci se base essentiellement sources de données, les transformations
sur les niveaux de modélisation éventuelles qu’elles doivent subir, leurs
classiques, en ajoutant un ensemble de modes de rafraîchissement dans le DW et
concepts de base, intégrer de nouveaux leurs fréquences d’utilisation. Dans [12]
modèles et proposer un formalisme de une démarche exhaustive de modélisation
présentation. de la répartition des données d’une base
Dans la section suivante, nous allons citer de production a été bien développée
l’état de l’art. Dans la section 5, nous (Figure1). Celle-ci se base essentiellement
allons proposer les concepts de base de sur l’ajout d’un modèle de répartition des
notre démarche, les modèles nécessaires données (MRD) en tenant compte d’un
et le formalisme proposé. processus de répartition et en intégrant un
programme d’optimisation des différentes
4- ETAT DE L’ART allocations en fonction des débits binaires
échangés, les fiabilités des échanges et les
Les méthodologies trouvées dans la caractéristiques du réseau. Dans [16], une
littérature ont généralement pour objectif adaptation du modèle ASM (Abstract
d'intégrer le DW dans une structure State Machines) a été éffectuée pour
unique et ont comme résultat un entrepôt modéliser un data warehouse réparti.
de données centralisé [3] et [4]. Cet
entrepôt est appelé DW, s’il est 5- SOLUTION PROPOSEE
généralisé aux activités de l’entreprise, ou
bien DM s’il est spécifique à un 5.1- Concepts de base
département particulier. Nous visons par cette démarche le côté
On a constaté dans l’état de l’art que tous logique et organisationnel des données
les travaux concernés par la modélisation qui n’a pas été bien mis en évidence dans
de la réparation des données des DW sont l’état de l’art. L’objectif visé est, donc, de
orientés vers la modélisation physique [5] modéliser les données contenues dans un
et [6]. Des algorithmes de répartition DW central et en même temps leur
verticale des données ont été proposées répartition entre plusieurs bases de
dans [14] et [15]. L’idée de répartition des données distantes qui seront les futurs
données d’un DW a été évoquée par DM de l’entreprise.
Noaman, A.Y. et K. Barker dans [7] et Pour généraliser notre démarche, nous
[8]. Ils se sont basés sur l’architecture proposons un formalisme que nous
ANSI/SPARC pour la modélisation des pourrons adapter à n’importe quelle
données des DW. La démarche proposée approche de conception. Généralement la
par ces auteurs se base essentiellement sur modélisation d’un système d’information
l’approche Top/Down. Ils ont aussi se base sur trois niveaux :
développé un algorithme de fragmentation
horizontale des tables de faits dans [9].
3
Figure 1 : Démarches de modélisation (Etat de l’art)
1- Modélisation du Niveau Conceptuel c’est celui de la répartition des données

des Données (MNCD) entre les différents sites, ceci en tenant
2- Modélisation du Niveau Logique des compte des débits binaires échangés, des
Données (MNLD) fiabilités des échanges et des besoins de
3- Modélisation du Niveau Physique des fragmentation des tables. Ces deux axes
Données (MNPD) de modélisation sont indépendants et
peuvent être effectués en parallèle. Ainsi,
En effet, nous allons nous baser sur les
deux équipes de modélisation peuvent
deux démarches proposées dans [4] et
travailler en même temps. Une première
[12]. Le but est l’adaptation des processus
équipe qui se charge de la répartition des
de répartition à la modélisation d’un DW.
données entre les différents DM et une
Une fois la modélisation du niveau deuxième équipe qui se charge de
conceptuel des données (MNCD) est l’intégration logique des données sources
réalisée, on entame la modélisation du du DW global. Cette méthode de
niveau logique des données, celle-ci peut modélisation permet de garantir un espace
s’effectuer en deux axes. Deux besoins de travail partagé, accélérer le rythme du
fondamentaux sont à satisfaire : (1) Il faut travail et réduire la complexité de la
tenir compte tout d’abord des besoins modélisation. Les deux équipes peuvent
d’intégration des données modélisées se réunir ensuite, pour une organisation
dans le DW vis-à-vis de leurs sources de finale des données intégrées et allouées.
données. Elles peuvent subir des
transformations pour leur adaptation à la
base. (2) Un autre besoin est à satisfaire,
4
5.2- Modèles − Une matrice de liaison inter-site
Cette méthodologie se base sur six (MLIS)
modèles (Figure 2) répartis selon trois
niveaux : niveau conceptuel, niveau La MLIS permet de décrire la structure
logique (enrichi) et niveau physique. de l’entreprise et son organisation de
point de vue géographique. Cette
Pour choisir l’architecture à mettre en description est nécessaire pour choisir la
place, nous proposons un modèle meilleure architecture à mettre en place.
introductif appelé Modèle Structurel et
Organisationnel de l’Entreprise (MSOE). Pour élaborer le MSOE, nous allons
commencer tout d’abord par analyser la
Au niveau conceptuel nous gardons le structure de l’entreprise. Ceci revient à
Modèle Conceptuel de Données (MCD) trouver des réponses aux questions
proposé dans les approches classiques. suivantes :
Au niveau logique, Le modèle logique de
Données (MLD) sera généré à partir du
MCD.
A ce niveau, nous proposons un
enrichissement à travers deux modèles :
Un Modèle d’Intégration Logique des
Données (MILD) et un Modèle de
Répartition Logique des Données
(MRLD).
Le MILD permet d’identifier pour chaque
donnée du MNLD, la source
correspondante et (si nécessaire) les
transformations qu’elle doit subir.
Figure 2 : Modèles proposés
Le MRLD permet d’identifier pour
1- L’entreprise est elle répartie
chaque donnée du MNLD global le DM
géographiquement ?
auquel elle sera affectée.
2- Si oui, quels sont les sites qui la
Le MILD et le MRLD seront fusionnés forment ?
pour créer un dernier modèle englobant
3- Comment ces sites sont reliés les uns
toutes les informations nécessaires pour la
aux autres ?
modélisation de la répartition des données
d’un DW. Celui-ci est appelé Modèle 4- Quels sont les moyens et les
d’Intégration Logique des Données caractéristiques des supports de
Réparties (MILDR). communication entre les sites (type de
réseau, support, protocole, débit
Au niveau physique, plusieurs Modèles binaire de transmission des données,
Physiques de Données (MPD) seront fiabilité…etc.)?
déduits. Ces derniers, représentent
Les réponses à ces questions sont
l’organisation physique des différents
résumées dans le TS (Figure 3). Le
DM.
tableau est une simple description de la
5.3- FORMALISME PROPOSE structure de l’entreprise. Il permet de
visualiser la liste des groupes de sites de
5.3.1- Le MSOE l’entreprise, triée par ordre de priorité
Pour établir le MSOE, nous proposons le décisionnelle. Pour chaque site, on
formalisme suivant : identifie son type et le groupe auquel il
appartient. Le tableau de structure est
− Un Tableau de Structure (TS)
5
important pour les étapes suivantes a choisi d’appeler Matrice des Liaisons
puisqu’il détermine la liste des sites Inter-Sites1 (MLIS1) (Figure 4).
décisionnels de l’entreprise et peut faire
l’objet d’une documentation pour S1 S2 … Sn
l’entreprise. Les sites de priorité 3 seront DB DB DB
supprimés de la liste puisqu’ils ne S1
F F F
détiennent aucun pouvoir décisionnel. DB DB DB
S2
Priorité Groupes Types Liste des F F F
(1, 2,3) de sites de sites sites DB DB DB
…
1 G1 T1 S1.1,...,S1.n F F F
2 G2 T2 S2.1,...,S2.k DB DB DB
Sn
3 G3 T3 S3.1,...,S3.j F F F
Figure 3 : Tableau De Structure Figure 4 : La MLIS1
Après avoir décrit la structuration de Cette matrice peut être améliorée (Figure
l’entreprise, il est important d’étudier son 5) par l’ajout des indicateurs caractérisant
infrastructure réseau. Cette étude consiste les débits binaires.
à identifier le type du réseau, les moyens Un débit binaire (DB) peut être : un débit
et les caractéristiques des supports de élevé (DE), un débit moyen (DMoy), un
communication entre les sites. En effet, il débit faible (DF).
s’agit d’identifier pour chaque couple de
sites s’il existe une portion du réseau qui Cette classification est basée sur la
les relie. Si cette portion existe, il faut se définition de trois intervalles de débit
renseigner sur les caractéristiques des binaire. Ensuite, suivant l’appartenance
communications entre ces deux sites. Les du DB à un intervalle parmi ces trois, un
caractéristiques qui nous semblent les débit peut être classé : (DE), (DMoy) ou
plus importantes à identifier sont la bien (DF).
fiabilité et le débit binaire.
Les modèles logiques des Data Marts
Ces deux caractéristiques diffèrent d’une décrivent l’allocation logique des
portion de réseau à une autre. En effet, différentes données du DW vers les sites
ceci dépend des supports de transmission correspondants. Cette description ne
au sein du réseau, de la distance qui prend pas en considération les besoins
sépare les deux sites, ...etc. Des d’intégration des données vis-à-vis de
statistiques sont utilisées afin de leurs sources. Les informations données
déterminer les valeurs de ces par le MSOE sont insuffisantes pour
caractéristiques. décider l’allocation d’une information
Pour la présentation de ces vers un site donné. Plusieurs critères sont
caractéristiques nous pouvons utiliser une à prendre en considération pour la
matrice carrée d’ordre n, où n est le répartition des données. Le critère le plus
nombre de sites. Cette matrice résume les important est celui de la fréquence
liaisons entre les différents sites de d’utilisation. On rappelle à cet effet, que
l’entreprise. Chaque cellule de cette les données du DW sont utilisées
matrice contient le débit binaire échangé seulement en consultation.
et la fiabilité de la portion du réseau liant De ce fait, il faut tout d’abord ressortir les
les deux sites correspondants. Elle différents traitements possibles qui seront
représente donc, l’existence d’une liaison exécutés par les sites de l’entreprise. Pour
entre deux sites quelconques. Une cellule chaque site, on va énoncer les utilisations
vide indique l’absence de liaison entre les possibles des différentes données par les
deux sites. Nous pouvons résumer ces traitements. Les données sont des tables
différentes données dans la matrice qu’on ou bien fragments de tables.
6
S1 S2 … Sn différents traitements ti classés par site.
S DE/DMoy/DF DE/DMoy/DF DE/DMoy/DF
Le résultat est l’ensemble des fragments
1 F F F
nécessaires pour les différentes
S DE/DMoy/DF DE/DM/DF DE/DM/DF
2
utilisations. Pour ce faire, nous proposons
F F F
DE/DMoy/DF DE/DM/DF DE/DM/DF

un formalisme qu’on a choisi d’appeler
…
F F F
Matrice de fragmentation (MF).
S DE/DMoy/DF DE/DMoy/DF DE/DMoy/DF Cette matrice a pour objectif

n F F F
l’identification des critères de
fragmentation et les fragments
Figure 5 : MLIS2 nécessaires.
5.3.2- Le Modèle de Répartition Logique Elle est tridimensionnelle :
des Données
Pour modéliser la répartition des données − une dimension pour les tables d’origine
d’un DW, la première tâche consiste à (T),
identifier pour chaque site mentionné − une dimension pour les sites (Si),
dans le MSOE, les traitements possibles − une troisième pour les traitements
sur les données de la base. Ceci, est susceptibles d’être exécutés sur chaque
visualisé dans une matrice site (Ti).
tridimensionnelle car elle englobe les sites Il existe deux types de fragments, un
de l’entreprise, les traitements à effectuer fragment vertical et un fragment
par site et les données nécessaires. Cette horizontal : Le fragment vertical est une
matrice est appelée : « Matrice Utilisation sélection d’une colonne d’une table. Le
des Données (MUD) ». fragment horizontal est une sélection
d’une ligne d’une table.
La deuxième tâche consiste à déduire à
partir de la matrice précédente, les Pour établir la MF, il est indispensable
meilleures allocations possibles des d’identifier les différents fragments
données aux sites de l’entreprise. Et ce, horizontaux et verticaux. De ce fait, nous
par la construction d’une deuxième proposons deux matrices préliminaires
matrice visualisant le mode d’allocation que nous avons choisis d’appeler Matrice
des données. Cette matrice est appelée : de Fragmentation Horizontale (MFH) et
« Matrice d’Allocation des Données la Matrice de Fragmentation Verticale et
(MAD) ». Mixte (MFVM).
LA MUD La matrice d’utilisation des données
La matrice utilisation des données décrit (Figure 6) décrit pour chaque traitement
les différentes utilisations possibles des correspondant à un site de l’entreprise, les
données par les différents sites données nécessaires pour son
décisionnels. Pour établir la MUD nous accomplissement. C’est une matrice
allons identifier tout d’abord les tridimensionnelle par ce qu’elle intègre
traitements possibles par site. Il est à noter les dimensions suivantes:
qu’une donnée Du peut être soit une table − La liste des sites (Si)
ou bien une portion de table, c’est à dire − La liste des traitements par site (Ti)
un fragment de table. Les tables sont − La liste des données nécessaires aux
extraites directement du MLD, par contre, traitements (Du)
les fragments de tables ne sont pas Dans la matrice utilisation des données,
facilement identifiables. Pour ce faire, nous désignons par Du:
nous allons adapter le formalisme de
fragmentation des données de production − une table non fragmentée,
aux tables du MNLD. Le point de départ − un fragment horizontal,
est la liste des tables du MLD et les − un fragment vertical,
7
− ou bien, un fragment mixte. TABLES DE FAITS /
FRAGMENTS HORIZONTAUX
La construction de cette matrice consiste à
D1 … Du … Dt
identifier, pour chaque traitement tipi, les t1.1 FU FU FU
données nécessaires, leur mode et leurs …
fréquences de consultation par ce S1 t1.p1 FU FU FU
traitement. Les opérations de création, de …
t1.q1 FU FU FU
suppression, de modification ne seront
Total des
pas prises en compte. Ces opérations utilisations
TU1.1 TUu.1 TUt.1
seront faites par l’administrateur du DW ...
qui s’occupe lui même de toutes les t1.i FU FU FU
opérations de mise à jour. Chaque case de …
SITES CIBLES
ti.pi FU FU FU
la matrice indique la fréquence Si …
d’utilisation de Du vis à vis de tipi ti.qi FU FU FU
...
appartenant à Si.
Total des
TU1.i TUu.i TUt.i
La matrice d’utilisation des données peut utilisations
être simplifiée (Figure 7) en indiquant le …

tn.1 x
total des utilisations par site. Ainsi, nous …
pouvons pour chaque donnée identifier le tn.pn x x
Sn
site le plus prioritaire, en tenant compte tn.qn x
du nombre d’utilisations de celle-ci. La
Total des
simplification aboutit à une deuxième TU1.n TUu.n TUt.n
utilisations
matrice qu’on a choisi d’appeler MUD2.
Figure 6 : MUD1
Cette matrice nous servira de support pour
Chaque cellule de la MUD2 représente
décider l’allocation des données par site.
un indicateur du besoin d’allocation. Si
Nous avons choisi d’enrichir cette
cet indicateur est faible, ceci signifie la
matrice par les indicateurs de priorité pour
non nécessité d’allocation de la donnée
chaque site. Chaque cellule contiendra le
correspondante.
total des fréquences d’utilisation par site
divisé par la priorité de ce dernier. TABLES DE FAITS / FRAGMENTS
HORIZONTAUX
Le résultat final est un indicateur efficace D1 … Du … Dt
pour décrire la nécessité ou non S1
TU11 TUu1i TUt1i
P1 P1 P1
d’allocation de la donnée au site
SITES CIBLES
...
correspondant. TU1.i TUu.i TUt.i
Si Pi Pi Pi
A ce niveau, nous disposons d’une liste ...
de tables, de FH, de FV et de FM, nous TU1.n TUu.n TUt.n
Sn
avons aussi la fréquence d’utilisation de Pn Pn Pn
ces données par site ainsi que leurs Figure 7 : MUD2
priorités. Nous pouvons alors, procéder à Pour allouer une donnée on cherche le site
la construction de la MAD. qui l’utilise le plus c’est à dire dont le
LA MAD total des fréquences d’utilisation est
La matrice d’allocation des données supérieur à tous les autres sites et qui est
(Figure 8) décrit pour chaque donnée, le le plus prioritaire pour son utilisation.
site dans lequel elle sera allouée ou bien, Cette méthode d’allocation peut faire
elle sera consultée. C’est une matrice l’objet d’automatisation. Ainsi, on pourra
bidimensionnelle parce qu’elle englobe : décrire l’algorithme correspondant à
Les données utilisées (Du), Les sites l’allocation des données du DW vers les
destinataires (Si). différents Data Marts de l’organisation.
8
Chaque cellule de la matrice d’allocation Ayant réalisé le MALD, la modélisation
des données indique si une donnée est une de la répartition logique des Data Mart est
Donnée Persistante (DP) ou bien Donnée achevée. Toutes les données
Consultée (DC). Une DP signifie qu’elle correspondantes à la répartition des
est allouée au site correspondant, par données sont identifiées, ces données
contre, une DC veut dire qu’elle sera juste nous permettront en partie de construire le
consultée par le site correspondant. Une MILDR. Mais, il faudra tenir compte en
cellule vide indique que la donnée n’est parallèle de l’intégration des données
pas consultée par le site et on l’appelle sources vis à vis des sources de données.
Donnée Absente (DA).
TABLES DE FAITS / FRAGMENTX HORIZONTAUX

D1 … Du … Dt
DESTINATIONS
DM1 DP/DC/DA DP/DC/DA DP/DC/DA

...
DMi DP/DC/DA DP/DC/DA DP/DC/DA
...
DMn DP/DC/DA DP/DC/DA DP/DC/DA
Figure 8 : MALD1
5.3.3- Modélisation de l’Intégration les catégories, les types,…etc., qui ne
Logique des Données Sources proviennent pas des données sources.
Le modèle d’intégration logique des
Les données peuvent subir plusieurs. Une
données sources décrit les sources de
transformation peut faire l’objet :
données nécessaires pour les besoins
d’intégration (Figure 9). − D’une transformation élémentaire
(TE): formule, expression ou des
Chaque donnée du MLD est caractérisée
programmes permettant d’obtenir le
par une source correspondante. Elle subit
contenu d’un attribut (a) à partir d’une
des transformations selon les besoins.
source (Sc). Ce type de transformation
La modélisation de l’intégration logique est fait dans le cas ou l’attribut est
des données sources n’intègre en aucun obtenu à partir d’une seule source.
cas les besoins de répartition physique. Le − Une transformation composite (TC) :
formalisme proposé est une Matrice formule, expression ou programme
d’Intégration Logique des Données permettant d’obtenir le contenu d’un
Sources (MILDS) (Figure 9). attribut à partir de deux ou plusieurs
Il s’agit de déterminer pour chaque sources.
donnée du MLD la source de donnée qui Au niveau de la phase d’intégration, tout
permet de l’alimenter. Cette dernière subit attribut de la base doit être caractérisé par
les transformations nécessaires pour la source qui l’alimente et par les
l’adapter à la base. transformations nécessaires qu’il doit
Une source peut être soit : subir pour son utilisation par les différents
sites correspondants. Pour identifier ces
− Interne : c’est l’ensemble des attributs transformations nous proposons une
qui se trouvent dans les tables sources matrice que nous avons choisi d’appeler
des applications fonctionnelles. Matrice de Transformations des Données
− Externe : c’est l’ensemble des attributs Sources (MTDS).
spécifiques au DW comme les dates,
Celle-ci est tridimensionnelle car elle
renferme les dimensions suivantes :
9
− une dimension pour les attributs des 5.3.4- Modélisation de l’Intégration
différentes tables du MLD (A) Logique des Données Réparties (MILDR)
− une dimension pour les sources La modélisation de l’intégration logique
internes (SI) des données réparties (Figure 10) consiste
− une dimension pour les sources à caractériser chaque donnée allouée à un
externes (SE) DM par :
Une fois la modélisation terminée,
l’équipe de modélisation de la répartition − la source correspondante pour son
fournit la MAD. La deuxième équipe, alimentation (interne ou externe)
s’occupant de la modélisation logique des − la transformation nécessaire que la
données sources, fournit la MILDS. Ces donnée source peut subir (élémentaire
deux équipes, peuvent ensuite se réunir ou composite) pour son adaptation à la
pour préparer la modélisation de base.
l’intégration logique des données − le DM auquel elle sera allouée.
réparties.
Tables du
Attributs
MNLD
Sources de données TC
MLDS1 MLDS r MLDS s

A11 A1z A1x Ar1 Arz Arx As1 Asz Asx
a11 TE TE TE
…
al l x x x x TC
TD1 ...
a1m
aj1 TE TE TE
…
aj 1
TDj
…
ajm
ak1 x x x x x x TC
…
akl TE TE TE
TDk
… x x x x x x TC
akm
Figure 9: MILDS
Le formalisme proposé est une matrice la matrice transformation des données. Le
appelée Matrice d’Intégration Logique des résultat de la fusion sera une nouvelle
Données Réparties (MILDR). La matrice englobant toutes les informations
modélisation de l’intégration logique des nécessaires pour la répartition des données
données réparties consiste à fusionner les d’un DW entre plusieurs DM.
deux matrices réalisées au niveau logique
La MILDR représente le dernier niveau de
(la MILDS et la MRLD). La fusion
modélisation logique, elle garde pour
consiste à remplacer les colonnes de la
chaque donnée Du sa traçabilité vis à vis de
MILDS par les données réparties entre les
sa source, les différentes transformations
différents Data Mart de l’entreprise, ces
nécessaires pour son adaptation à la base, le
données sont celles identifiées dans la
type de la transformation voulu et le site
matrice allocation logique des données. On
correspondant auquel elle sera allouée.
gardera par contre les mêmes colonnes de
10
Cette matrice peut subir des modifications modélisation surtout avec la fluctuation de
selon le besoin, ceci va simplifier les mises l’environnement et avec l’extension du
à jour et renforcer la flexibilité de la besoin informationnel vis à vis du DW.
MLDS1 MLDSr MLDSs TC

Sources
Destinations
A11 A1z A1x Ar1 Arz Arx As1 Asz Asx
D1 TE TE TE
MLDM1
…
DM
Du x x x x TC
...
Dt
…
D1 TE TE TE
MLDMj
…
DM
Du
...
Dt
…
D1 x x x x x x TC
MLDMn
…
DM
Du TE TE TE
... x x x x x x TC
Dt
Figure 10 : Matrice de l’Intégration Logique des Données Réparties
6- CONCLUSION la modélisation logique s’oriente vers

deux axes indépendants et qui peuvent se
Dans cet article nous avons proposé une faire en parallèle. Un premier axe consiste
nouvelle démarche de modélisation de la à modéliser l’allocation logique des
répartition des données des DW. données du DW vers plusieurs DM, le
L’avantage de la démarche proposée est le résultat est une MALD. Le deuxième
fait qu’elle constitue une extension au axe consiste à modéliser l’intégration des
niveau de la modélisation qui peut données vis à vis des sources de données
s’appliquer sur n’importe quelle approche en tenant compte des transformations
de conception. nécessaires sur les données sources, le
résultat est la MILDS. Le résultat donné
L’apport de la démarche proposée est la par le niveau logique est une matrice
mise en évidence du coté organisationnel appelée MILDR du DW et qui n’est autre
des données d’un DW. Un enrichissement que la fusion des deux matrices
du niveau logique de modélisation est précédentes. Cette dernière permet de
effectué pour garantir une meilleure visualiser toutes les informations
organisation des données. A ce niveau, un nécessaires pour la répartition des
MNLD global du DW est établi. Ensuite,
11
données d’un DW. Cependant, quelques aux schémas physiques » DUNOD
axes de recherches restent à étudier et à informatique.(1989).
approfondir : [7] Noaman, A.Y. et K. Barker,
“Distributed Data warehouse
− Jusqu'àprésent il n'y a pas eu de Design”, (under revision for) journal
réalisation pour la solution proposée, le Submission. (2000).
travail effectué sera complété [8] Noaman, A.Y. et K. Barker,
ultérieurement par une “Distributed Data warehouse
implémentation. Architecture and design”, the
− Nous envisageons aussi une Fourteenth International Symposium
on computer and Information
amélioration du processus d’allocation
Sciences (ISCI’99), Kusadasi, Turki.
des données par la prise en compte des (1999).
caractéristiques du réseau. On pourra [9] Noaman, A.Y. et K. Barker, “A
intégrer un programme d’optimisation Horizontal Fragmentation Algorithm
permettant de donner une meilleure for the fact relation in a Distributed
allocation possible en tenant compte Data Warehouse”, the Eight
des caractéristiques du réseau et de sa International Conference on
fiabilité. Information and Knowledge
− On pourra ensuite, envisager une Management (CIKM’99), Kansas,
l’intégration d’une allocation Missouri.(1999).
[10] MESSAOUD Saloua, « Modélisation
dynamique des données et ceci par
de la répartition et de la réplication
l’intégration d’un agent intelligent qui des données». Institut Supérieur de
permet de calculer les fréquences Gestion, TunisIII, Tunisie (2000).
d’utilisation des différentes données [11] Stefano CERI, Giuseppe
par les sites de l’organisation. PELAGATTI, «Distributed Data
base: Principles and systems »,
BIBLIOGRAPHIE McGaw-hill. (1984).
[12] George Gardarin, «Bases de données
: Objets et relationnelles », Edition
[1] Ralph Kimball, «The Data EYRLLES (1997).
Warehouse has no centre», Volume 2, [13] P.O’Neil and D.Quass. “Improved
Nombre 10. (1999). query performance with variant
[2] Bill Inmon, «Data Mart does not indexes. Proceedings of the ACM
equal Data Warehouse», DM Direct. SIGMOD International Conference
(1999). on Management of Data. (1997).
[3] Jean-François Goglin; « La [14] P.O’Neil et D.Quass. Improved query
construction du data warehouse, du performance with variant indexes.
data mart au data web »; Nouvelles Proceedings of the ACM SIGMOD
Technologies Informatiques; Ed. International Conference on
HERMES. Management of Data. (1997).
[4] KOLSI Nader, « Modélisation de [15] S. Chaudhuri and V.Narasayya.
l’intégration des données d’un “Index merging”. Proceedings of the
DW ». Institut Supérieur de Gestion, International Conference on Data
TunisIII, Tunisie (2000). Engineering (ICDE). (1999).
[5] Ladjel Bellatreche, Kamalakar [16] Jane Zaho, Klaus-Dieter Schewe
Karlapalem, «Some Issues in design ACM International Conference
of Data Warehousing Systems», Proceeding Series, Proceedings of the
Department of computer Science & first Asian-Pacific conference on
Technology Clear Water Bay Conceptual modelling, Dunedin, New
Kowloon, Hong Kong.(1999). Zealand. (2004).
[6] GALACSI, « Conception De Bases
De Données : Du schéma conceptuel
12

Etude Universitaire - Repartition Des Donnees D Un DW

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Etude Universitaire - Repartition Des Donnees D Un DW

Uploaded by

Copyright:

Available Formats

MODELISATION DE LA REPARTITION DES DONNEES

D’UN DATA WAREHOUSE

Mots clés : Data warehouse, Data mart, Modélisation, Répartition, Intégration.

1- Modélisation du Niveau Conceptuel c’est celui de la répartition des données

DE/DMoy/DF DE/DM/DF DE/DM/DF

S DE/DMoy/DF DE/DMoy/DF DE/DMoy/DF Cette matrice a pour objectif

être simplifiée (Figure 7) en indiquant le …

TABLES DE FAITS / FRAGMENTX HORIZONTAUX

DM1 DP/DC/DA DP/DC/DA DP/DC/DA

MLDS1 MLDS r MLDS s

MLDS1 MLDSr MLDSs TC

A11 A1z A1x Ar1 Arz Arx As1 Asz Asx

6- CONCLUSION la modélisation logique s’oriente vers

You might also like