Professional Documents
Culture Documents
Rédigé par :
▪ Ou-ichen Mohamed
▪ Yedir Ben amar
▪ Azeroual Zineb
▪ Abdallaoui Hasnaa
Demandé par :
▪ Prof ELMHOUTI Abderrahim
Dans le monde d'aujourd'hui, les organisations collectent et génèrent une quantité massive de
données à un rythme sans précédent. L'entrepôt de données et le Big Data sont deux concepts clés
qui ont émergé pour répondre à la nécessité de gérer et d'exploiter ces vastes volumes de données
de manière efficace et stratégique. Un entrepôt de données est un système centralisé conçu pour
stocker, organiser et gérer les données provenant de différentes sources au sein d'une organisation.
Il s'agit d'un environnement optimisé pour l'analyse et la prise de décision, permettant de
consolider des données provenant de multiples sources, de les transformer en informations
significatives et de les rendre accessibles aux utilisateurs autorisés. L'entrepôt de données offre un
moyen structuré et cohérent de stocker les données, ce qui facilite les analyses approfondies et les
rapports de gestion.
Le Big Data, quant à lui, se réfère à l'énorme quantité de données générées à partir de diverses
sources telles que les médias sociaux, les appareils mobiles, les capteurs, les transactions en ligne
et bien d'autres encore. Les données volumineuses se caractérisent par leur volume, leur variété,
leur vitesse et leur valeur. L'analyse de ces données massives peut révéler des tendances, des
modèles et des informations précieuses pour les organisations, ouvrir de nouvelles opportunités
commerciales et améliorer les processus décisionnels
5
Chapitre 1 : Introduction aux Entrepôts de Données
Les motifs qui ont présidé à la conservation de ces données étaient : des obligations légales pour
pouvoir justifier les facturations, des raisons de sécurité pour pouvoir détecter les fraudes, des
motifs commerciaux pour suivre l'évolution des clients et des marchés. Quelle que soit la raison
initiale, les entreprises se sont rendues compte que ces données pouvaient être une source
d'informations à leur service. Ce constat, valable pour les sociétés du secteur marchand, peut être
étendu à de nombreux domaines comme la médecine, la pharmacologie. Il faut donc définir des
environnements permettant de mémoriser de grands jeux de données et d'en extraire de
l'information.
Les structures qui accueillent ce flot important de données sont des entrepôts de données ou data
warehouse. Ils sont construits sur une nouvelle architecture bien différente de celle prévue pour
l'informatique de production, basée elle sur des systèmes de gestion de bases de données
relationnelles et des serveurs transactionnels.
Un entrepôt de données est construit en l'alimentant via les serveurs transactionnels de façon bien
choisie et réfléchie pour permettre aux procédures d'extraction de connaissances de bien
fonctionner. L'organisation logique des données est particulièrement conçue pour autoriser des
recherches complexes.
6
II. Informatique décisionnel vs Informatique de production
1. Informatique de Production
Une des principales caractéristiques des systèmes de production est une activité constante
constituée de modifications et d'interrogations fréquentes des données par de nombreux
utilisateurs.
Exemple : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées
d'un client, ...
Conserver la cohérence (interdire la modification simultanée d'une même donnée par deux
utilisateurs différents) de la base de données, est donc l'objectif et la difficulté principale pour
l'informatique de production. Il s'agit donc de privilégier un enregistrement rapide et sûr des
données.
Les systèmes transactionnels (temps réel) OLTP (On-Line Transaction Processing) qui est la tâche
principale des SGBD, garantissent l'intégrité des données. Les utilisateurs accèdent à des éléments
de la base par de très courtes transactions indécomposables, isolées. L'isolation permet de garantir
que la transaction ne sera pas perturbée ni interrompue. La brièveté garantit que les temps de
réponse seront acceptables
La dernière caractéristique de ces bases de données est qu'elles conservent l'état instantané du
système. Dans la plupart des cas, l'évolution n'est pas conservée. On conserve simplement des
versions instantanées pour la reprise en cas de panne et pour des raisons légales.
2. Informatique Décisionnel
Exemple :
▪ Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C.
▪ Comment se comporte le produit X par rapport au produit Y ?
▪ Et par rapport à l'année dernière ?
▪ Quel type de client peut bien acheter mon produit Z ?
7
Une telle interrogation peut nécessiter des temps de calcul importants. Or, l'activité d'un serveur
transactionnel ne peut être interrompue. Il faut donc prévoir une nouvelle organisation qui
C’est le système OLAP (On-line Analytical Processing). L'existence d'un entrepôt simplifiera donc
la tâche d'extraction de connaissances à partir de données et permettra donc d'optimiser le temps
de développement d'un projet de fouille de données.
Si le critère de cohérence semble assuré avec les techniques du transactionnel, cette cohérence est
toute relative. Elle se contrôle au niveau de la transaction élémentaire mais pas au niveau global et
des activités de l'organisation. Pour les entrepôts, on requiert une cohérence interprétable par
l'utilisateur. Par exemple, si les livraisons n'ont pas été toutes saisies dans le système, comment
garantir la cohérence de l'état du stock ? Autre, exemple, pour établir un profil client ou étudier les
performances d'un magasin, toutes les données utiles le concernant doivent être présentes dans le
système, ce que n'assure pas le serveur transactionnel mais que doit assurer le serveur décisionnel.
Les entrepôts de données assureront donc plutôt une cohérence globale des données.
Une dernière caractéristique importante des entrepôts, qui est aussi une différence fondamentale
avec les bases de production, est qu'aucune information n'y est jamais modifiée. En effet, on
mémorise toutes les données sur une période donnée et terminée, il n'y aura donc jamais à remettre
en cause ces données car toutes les vérifications utiles auront été faites lors de l'alimentation.
L'utilisation se résume donc à un chargement périodique, puis à des interrogations non régulières,
non prévisibles, parfois longues à exécuter.
En résumé, on peut justifier la construction d'un entrepôt de données par l'affirmation suivante :
Il est beaucoup plus simple de trouver une information pertinente dans une structure organisée
pour la recherche de connaissance.
8
III. Définition de Datawarehouse
Données.
Définition : «Un data warehouse est une collection de données orientées sujet, intégrées,
Inmon
1. Orientées sujets
• Organisées autours de sujets principaux (produits, clients, ventes, etc.)
• Intégration de sources multiples et hétérogènes
o BD relationnelles, transactionnelles, orientées objets, flat files, applications
dédiées...
o Diverses sources (Ex : diverses services, agences, départements, etc.)
• Techniques de nettoyage et intégration des données : Consistance entre les diverses sources
des noms, des unités de mesure, etc.
2. Intégrées
3. Historisées
• Point de vue de l’entrepôt de données est plus étendu que celui de la BD opérationnelle
o BD opérationnelle : valeur actuelle de la donnée
o Entrepôt de données : valeurs d’une perspective historique (ex : derniers 5 ans)
• Toutes les structures de clés d’un entrepôt de données contiennent une référence à la date,
explicitement ou implicitement
4. Persistantes
• Stockage séparé en mémoire secondaire des données transformées de la BD opérationnelle
• Pas de mise à jour en ligne dans un entrepôt de données
o Pas besoin de mécanismes de traitement des transactions, récupération et
contrôle d’accès concurrents
9
o Opérations d’accès : chargement initial des données, rafraîchissement des
données et accès aux données
10
Chapitre 2 : Architecture des systèmes à base D’entrepôt de
données
Les différents composants de l’architecture fonctionnelle d’un système à base d’entrepôt de données
s’organisent en 3 niveaux :
• Approche « push » : détection instantanée des mises à jour sur les BD opérationnelles pour
intégration dans l’entrepôt de données
• Approche « pull » : détection périodique des mises à jour des BD opérationnelles pour
intégration dans l’ED
11
Les composants de ce niveau permettent de réaliser essentiellement les trois tâches suivantes
• Intégration des données provenant des différentes sources
• Chargement et stockage des données dans la BD entrepôt organisée par sujets
• Rafraîchissement au fur et à mesure des mises à jour
C’est le niveau qui permet de présenter les données directement exploitables par l’utilisateur final, il
offre au preneur de décisions les opérations suivantes
12
➢ Les données agrégées synthétisant les données détaillées les données fortement
agrégées synthétisant à un niveau supérieur les données agrégées
• Axe historique : comprenant les données détaillées historisées représentant les événements
passés
La description de toutes ces données (provenance, structure, méthode utilisée pour l’agrégation,
Un annuaire spécialisé conserve toutes les informations (les métadonnées) au sujet du système
d'information qui régit l'entrepôt. Sans référentiel qui qualifie de façon précise ce que signifie
chaque valeur dans la base, il n'est pas possible de conduire une analyse et interpréter les résultats.
C'est ce rôle que joue l'annuaire des métadonnées.
• Description de la structure du DW
• Schéma, dimensions, hiérarchies, définitions des données, et localisation et contenu
des data marts
• Méta-données d’administration
• Historique de construction et transformation des données, statistiques d’utilisation et
rapports d’erreurs
• Algorithmes de généralisation
• Calculs des mesures, agrégations, partition, requêtes et rapports prédéfinis
• Méta-données d’intégration
• BDs sources et leurs contenus, description des passerelles, règles d’extraction,
nettoyage et transformation des données, règles de rafraîchissement et sécurité
• Données liées aux performances
• Index, vues, algorithmes de compression et accès aux données, règles de
planification des mises-à-jour
13
III. Composants logiciel d’un Entrepôt de données
• Sources de données :
• Données sources généralement modifiées quotidiennement,
• Issues de bases de données, fichiers plats, documents HTML, bases de connaissances,
• Données en général hétérogènes
• Serveur DW :
• Les entrepôts de données (Data Warehouse):
• Contient des données concernant l’ensemble des composantes de l’organisation
• Plusieurs BDs opérationnels et sources extérieures ; plusieurs thèmes
Nécessitent de puissantes machines pour gérer de très grandes bases de données contenant des
données de détail historisées
L’organisation des données est faite selon un modèle facilitant la gestion efficace des données et
leur historisation.
14
Sont de petits entrepôts nécessitant une infrastructure plus légère et sont mis en œuvre plus
rapidement (6 mois environs)
Conçus pour l’aide à la décision à partir de données extraites d’un ED plus conséquent ou de BD
sources existantes
Les données extraites sont adaptées pour l’aide à la décision (pour classe de décideurs, usage
particulier, recherche de corrélation, logiciel de statistiques,...)
L’organisation des données est faite selon un modèle facilitant les traitements Décisionnels
Requêtes interactives complexes sur ces volumes catégorie de traitements dédiés à l’aide à la
décision
➢ utilisent pour stocker et gérer les données de l’ED un SGBD Multidimensionnel dédiés aux
calculs de cubes de données
➢ les cubes de données implantés comme des matrices à plusieurs dimensions
➢ ont des temps de réponse faibles du fait qu’ils effectuent la pré-agrégation et le pré-calcul
des données sur tous les niveaux des hiérarchies du modèle de l’entrepôt
➢ Techniques de compression pour les matrices creuses
➢ génèrent de très grands volumes d’information
15
➢ les techniques incrémentales de rafraîchissement associées sont encore limitées, conduisant
à reconstruire périodiquement l’ED
➢ sont adaptés à de petits ED (quelques Go) et lorsque le modèle multidimensionnel ne
change pas beaucoup
➢ Avantage : efficacité de traitement des requêtes
➢ produits : Essbase d’Arbo Software, Pilot de pilot Software, TM1 d’Applix, …
o Utilisent pour stocker les données de l’ED un SGBD Relationnel le « moteur OLAP » est un
élément supplémentaire fournissant une vision multidimensionnelle de l’ED (organisé en
étoile ou flocon)
o Il réalise des calculs de données dérivés et agrégations à différents niveaux
o Il génère des requêtes mieux adaptées au schéma relationnel de l’ED et qui tire profit des
vues matérialisées existantes (facteur principal de performance)
o Avantages : souplesse, évolutions faciles
o Architecture de loin la plus populaire
o Produits : DSS Agents de MicroStrategy, Metacube d’Informix, …
✓ Utilisent pour stocker, gérer les données détaillées un SGBD Relationnel et pour stocker,
gérer les données agrégées un SGBD Multidimensionnel
✓ Permettent de gérer de très grande quantité de données et d’avoir des temps de réponses
acceptables en analyse OLAP
✓ produits : Express d’Oracle, Microsoft SQL Server 7.0 OLAP services, Media/MR de
Speedware, Holos de Seagate Technology, …
L'alimentation est la procédure qui permet de transférer des données du système opérationnel
16
vers l'entrepôt de données en les adaptant. Comment alimenter, donc, l’Entrepôt de Donnée ?
C’est la problématique de l’ETL (Extracting Transforming and Loading) qu’on peut résumer à
Toutes les données sources ne sont forcément pas utiles Ex : Doit-on prendre l’adresse complète
ou séparer le code postal ?
La dénormalisation des données crée des liens entre les données et permet des accès différents
Il sélectionne et extrait les données. En fait, la préparation des données consiste dans un premier
temps à obtenir des données en accord avec les objectifs que l'on s'impose. Ces données
proviennent le plus souvent de bases de production ou d'entrepôts. Les données sont structures en
champs typés (dans un domaine de définition).
Par la suite l’extracteur, formate les données dans un format cible commun qui est en général le
modèle Relationnel.
Les interfaces comme ODB, OCI, JDBC sont souvent utilisées durant ce processus.
17
3. Nettoyage et Transformation
L'étude des besoins a déterminé le contenu de l'entrepôt en partant des desiderata des utilisateurs.
Néanmoins, la forme, le contenu des données de production ne convient pas toujours
immédiatement au format choisi pour les données de l'entrepôt. Par conséquent, des
transformations sont souvent nécessaires.
Format
Le format physique des données provenant de la production peut ne pas être adéquat avec
le système hôte de l'entrepôt. Des transformations de type sont parfois nécessaires
(Système IBM vers système Unix...). Les données pouvant provenir de serveurs différents
dans des services différents, il est nécessaire d'uniformiser les noms et les formats des
données manipulées au niveau de l'entrepôt.
Consolidation
Selon les choix des unités pour les dimensions, des opérations de consolidation devront
accompagner le chargement des données (par exemple sommer les ventes pour obtenir et
enregistrer un total par jour et non pas toutes les transactions).
Uniformisation d'échelle
Pour éviter de trop grandes dispersions dans les valeurs numériques, une homogénéisation
des échelles de valeurs est utile. Ne pas la réaliser peut pénaliser les outils d'analyse et de
visualisation et peut-être simplement remplir inutilement les disques.
Autres
Des transformations qui permettent de mieux analyser les données sont aussi réalisées
pendant la phase de chargement. Par exemple, la transformation de la date de naissance en
âge, assure une plus grande lisibilité des données et permet de pallier les problèmes
apparus avec l'introduction de la dimension temps.
18
Malgré les efforts réalisés pour assurer l'intégrité des données de production, des erreurs peuvent
survenir, en particulier, lorsque les données proviennent de sources différentes (par exemple, il est
fréquent qu'un même client soit mémorisé plusieurs fois sur différents serveurs). Parmi les points à
vérifier, on peut citer:
Erreurs de saisie
Des doublons sont présents mais sont invisibles ; à cause des fautes de frappe: (Marcel
dupont; 3,rue verte; Lille) et (Marcel dupond; 3,rue verte; Lille) sont certainement un seul
et même client ; plusieurs membres d'un même foyer peuvent être présents ; ...
Intégrité de domaine
Un contrôle sur les domaines des valeurs permet de retrouver des valeurs aberrantes. De
façon plus générale, des valeurs douteuses peuvent se rencontrer, comme par exemple des
dates au 11 novembre 1911 (11/11/11) ou 1 janvier 1901 (01/01/01)
Informations manquantes
Des champs importants pour lesquels aucune valeur n'a été saisie peuvent pénaliser le
processus de découverte d'information, ou bien encore avoir une signification particulière
(ex: détection de fraudes). Il est parfois important d'insérer des valeurs par défaut
significatives (comme NULL) plutôt que de laisser ces données vides.
Il convient de noter que les sources des données alimentant un entrepôt peuvent être hétérogènes.
Les bases de production peuvent être nombreuses, différentes et délocalisées géographiquement.
des fichiers peuvent être achetées auprès d'entreprises qui se sont spécialisées dans la constitution
et la revente de fichiers qui vont aussi entrer dans le processus d'alimentation de l'entrepôt. Les
suites logicielles d'accompagnement d'entrepôts de données contiennent des outils susceptibles
d'aider à développer des procédures d'alimentation qui prennent en compte ces problèmes de
vérification et de normalisation.
4. Chargement
C’est une opération qui risque d’être assez longue plutôt mécanique et la moins complexe.
19
Il est nécessaire de définir et mettre en place : des stratégies pour assurer de bonnes conditions à sa
réalisation une politique de rafraîchissement.
L'alimentation des entrepôts s'accompagne, après validation, de l'édition automatique des tableaux
de bord les plus courants. Ils sont prédéfinis, réalisés par le service informatique, et sont le reflet
d'un besoin explicitement demandé au moment de la conception. Souvent, ils sont insuffisants
lorsqu'une anomalie est détectée ou lorsqu'un nouveau besoin s'exprime. L'utilisateur final doit
alors pouvoir interroger les données en ligne à l'aide d'outils simples et conviviaux. Ces outils
commencent à se généraliser. Les éditeurs les nomment (ou les classent) : reporting tools,
managed queries, Executive Information Systems (EIS), OLAP tools (Online analytical
Processing), ...bien que les différences entre tous ces systèmes ne soient pas toujours très nettes.
1. Requêtes
Nous présentons ici les outils destinés à l'utilisateur final qui permettent d'extraire des données de
l'entrepôt.
Les outils de création de rapport (reporting tools) extraient les données et proposent une mise en
forme destinée à la diffusion : par impression ou par des services internet ou intranet. Ils sont très
utilisés pour générer des tableaux de bord conventionnels, qui sont souvent composés et diffuses
automatiquement et périodiquement sans demande spécifique des utilisateurs. Lorsque leur
intégration dans le système d'information est réussie, ils mettent en évidence la structure
multidimensionnelle et présentent les agrégats, supportent la navigation. Ils sont accessibles aux
utilisateurs finals pour créer de nouveaux tableaux de bord.
Les progiciels (ex : SAS) dans ce domaine ont réalisé une percée importante. Ils sont souvent
qualifiés de EIS tools et ajoutent des analyses classiques et paramétrables pour les ventes, les
achats ou la finance par exemple.
Les outils les plus adaptés sont certainement les outils OLAP.
2. Agrégats et navigation
20
L'opération de navigation (ou forage) permet d'obtenir des détails sur la signification d'un résultat
en affinant une dimension ou en ajoutant une dimension. Elle apparaît dans de nombreux outils et
doit (parce qu'elle est souvent coûteuse) être intégrée dans le système. Pour illustrer le forage,
supposons qu'un utilisateur final demande les chiffres d'affaires par produit, et s'étonne d'un
résultat pour un produit donné. Il aura sûrement l'envie d'en analyser les raisons.
Une solution consisterait à ajouter la dimension temps, dans l'unité de temps trimestrielle pour
trouver une variation saisonnière, dans l'unité hebdomadaire pour envisager l'effet week-end, ou
encore la dimension magasin pour mettre en évidence un effet géog
raphique.
Pour des raisons de performance, il est utile de précalculer et préenregistrer dans l'entrepôt des
agrégations de données. On peut toutefois noter que des machines sont parfois dédiées à leur
exécution et leur diffusion : ce sont des serveurs d'agrégats.
Pour expliquer un résultat, il est parfois nécessaire de le comparer avec d'autres faits. Par exemple,
la baisse des ventes pour le mois de janvier peut s'expliquer par une baisse des achats ou une
rupture de stock. Si l'entrepôt est conçu pour suivre les ventes et les achats ou le stock, et si les
dimensions selon lesquelles ces trois faits sont suivis sont identiques, on doit pouvoir réaliser un
rapport unique. On parle alors de forage transversal ou drill across. C'est une opération qu'il faut
réaliser avec beaucoup de soins car mettre en oeuvre une requête sur plusieurs tables de faits peut
se révéler irréalisable. Engagée sans précautions, la requête va générer une table intermédiaire
énorme qui sera le produit cartésien entre les deux tables de faits.
3. Visualisation
Les outils de visualisation sont très importants dans le processus de décision et peuvent intervenir
à plusieurs niveaux. Ils sont utiles pour
21
Dans le premier cas, ils sont intégrés dans les outils d'analyse et doivent supporter des operations
comme comparer, modifier les échelles, retrouver les données correspondant à un point ou un
objet tracé, zoomer sur des régions ou des sous-ensembles et enfin permettre la navigation (drill-
up, drill down).
22
Chapitre 3 :Modélisation multidimensionnelle
Cette conception est basé sur un modèle multi-dimensionnel des données qui voit les données sous
la forme d’un data cube (cube de données).
1. La notion de dimension
Un Data cube : permet de modéliser et visualiser les données selon différentes dimensions ; les
dimensions constituent donc les points de vues depuis lesquels les données peuvent être
observes.
▪ EX :
Localisation (ville, département, pays, région),
Produit (article, type,catégorie)
Date (jour, semaine, mois, trimestre, année)
2. La notion de fait
Le Thème central est représenté par une table de faits.Cette Table de faits contient les valeurs des
La valeur d’une mesure est le résultat d’une opération d’agrégation des données
▪ EX : montant_ventes, quantité_vendue
23
3. La notion de cuboïde
L’ensemble des valeurs d’une mesure pour une combinaison de valeur des dimensions constitue
un cuboïde
Exemple:
• Montants des ventes sur l’année par type d’article, par ville et par mois
• Une valeur est associée à chaque combinaison type – ville – mois
➢ Dimensions : Produit (type), Localisation (ville) et Date (mois)
Exemple :
24
5. Notion de dimensions multi-niveaux
Lors du processus OLAP, les données sont généralement analysées en partant d'un faible niveau de
détail vers des données plus détaillées pour "forer vers le bas". Pour définir ces différents niveaux
de détail, chaque dimension est munie d'une (ou plusieurs) hiérarchie(s) de paramètres.
➢ Sert lors des analyses pour restreindre ou accroître les niveaux de détail de l'analyse
Organise les paramètres d'une dimension conformément à leur niveau de détail. Ces paramètres
seront donc ordonnés par une relation hiérarchique "est_plus_fin"
On définit donc la granularité d’une dimension comme étant le nombre de niveaux d’abstraction
Exemple :
1. Opération Slice
26
Visualiser les ventes par Localisation et Produit durant ce trimestre
2. L’opération Dice
Elle consiste en la définition d’un sous-cube par sélection sur deux (ou plus) dimensions
Ex : critère (Localisation = Paris v Rome) et (Date = 1er trimestre v 2èmetrimestre) et (Produit =
Informatique v Téléphonie)
3. L’opération Pivot
27
Ex : renversement sur l’axe Date
4. L’opération Roll-up
➢ Supprimer une dimension ou Remonter dans une hiérarchie de concepts d’une dimension
Ex : remonter du niveau
Trimestre au niveau
28
5. L’opération Drill-down
Ex : dimension TypeClien
Ou
1. Approches de Conception
➢ Il existe trois types d’approches : Approche haut-bas, bas-haut ou une combinaison des
deux :
- Haut-bas : débuter par le planning et la conception du modèle (mature)
- Bas-haut : débuter par des essais et des prototypes (rapide)
➢ Du point de vue de l’ingénierie du logiciel ceci consiste à appliquer les modèles de cycle
de vie suivants :
29
- Cascade : analyse structurée et systématique lors de chaque étape avant de passer à la
suivante
- Spirale : génération rapide de systèmes fonctionnels croissants; modifications rapides
et adaptation du modèle facile
➢ Le Processus de conception d’un entrepôt de données inclut les étapes suivantes
- Choix du processus à modéliser, ex : commandes, ventes, livraison
- Choix du grain (niveau de détail des données) pour le processus
- Choix des dimensions pour chaque table de faits
- Choix des mesures stockées dans les tables de faits
La conception d’un entrepôt de données un modèle au niveau logique qui soit concis et orienté
sujet différent donc dumodèle entités-relations. Trois types de schéma existent :
a. Schéma en étoile
Schéma en étoile modélisant les analyses des quantités et des montants des médicaments dans les
pharmacies selon 3 dimensions : le temps, la catégorie et la situation géographique
• Table de faits :
• Tables de dimension :
b. Schéma en flocon
30
Un modèle en flocon est une évolution du schéma en étoile avec :
• Induit une dénormalisation des dimensions générant une plus grande complexité en
termes de lisibilité et de gestion.
• Navigation coûteuse
c. Schéma en constellation
Un modèle en constellation :
31
Chapitre 4 : Big Data
I. Introduction
Le Big Data est un phénomène qui a vu le jour avec l’émergence de données volumineuses qu’on
ne pouvait pas traiter avec des techniques traditionnelles. Les premiers projets de Big Data sont
ceux des acteurs de la recherche d’information sur le web « moteurs de recherche » tel que Google
et Yahoo. En effet, ces acteurs étaient confrontés aux problèmes de la scalabilité (passage à
l'échelle) des systèmes et du temps de réponse aux requêtes utilisateurs.
Très rapidement, d’autres sociétés ont suivis le même chemin comme Amazon et Facebook. Le
Big Data est devenu une tendance incontournable pour beaucoup d’acteurs industriels du fait de
l’apport qu’il offre en qualité de stockage, traitement et d’analyse de données.
2. Définition
Plusieurs définitions ont été données pour décrire le Big Data mais elles sont similaires et
renferment les mêmes concepts. Nous citons les principales qui sont :
- Gartner: Big Data is high volume, high velocity, and/or high variety information
assets that require new forms of processing to enable enhanced decision making,
insight discovery and process optimization [Beyer, 2012].
- Library of Congress: The definition of Big Data is very fluid, as it is a moving target
what can be easily manipulated with common tools - and specific to the organization:
what can be managed and stewarded by any one institution in its infrastructure. One
researcher or organization’s concept of a large data set is small to another [Johnston,
2011].
Le Big Data (données massives) se caractérise par la problématique des 3V qui sont le Volume, la
Variété et la Vélocité, certains auteurs ont rajoutés d’autres V comme la Valeur.
32
✓ Volume: désigne la masse de données collectées (giga-octets, téraoctets, …),
✓ Variété : désigne l'origine variée des sources de données qui sont soit structurées ou non
structurées (images, mails, tweets, données de géo-localisation,…),
✓ Vélocité : désigne la vitesse à laquelle les données sont traitées simultanément.
Ces caractéristiques sont aussi désignées par le concept de dimension. Certains experts considèrent
qu’à partir du moment où l’on est en présence de l’une des variables, on se trouve dans un
contexte Big Data
Le Big Data couvre de nombreux domaines d’applications telles que l’industrie, la distribution, les
banques, l’assurance, le transport, loisirs et le télécom. Des exemples sont cités ci-dessous:
1. Transports
➢ Contrôle du trafic : exploitation de données de tous types (GPS, Radars, sondes, etc..) afin
de fluidifier le trafic et d’évaluer précisément le temps de transport d’un point à un autre,
➢ Planification des voyages : mise à disposition du citoyen de données jusque là réservées
aux administrations (gagner du temps / réduire le coût),
➢ Systèmes de transport intelligents (ITS) : les applications des NTIC (Nouvelles
technologies de l'Information et de la Communication) destinées au domaine des
transports. Parmi les thématiques d’actualité exposé durant le 20ème congrès mondial des
systèmes de Transport Intelligents3 nous citons comme exemple: les véhicules autonomes,
les véhicules coopératifs et les systèmes de positionnement par satellite.
Un exemple d’utilisation du Big Data pour la visualisation des données de transport en temps réel,
y compris les autobus, les voitures, les trains, vélos et avions de la ville de Londres.
33
2. Santé
- Exploitation des données à des fins d’études épidémiologiques, un cas d’utilisation est
l’exemple du site « Openhelth.fr » qui affiche en temps réel des informations sur la
santé des Français et des cartes en rapport (épidémies, allergies…),
- Exploitation des données stockées depuis des années, jamais exploitées, qui
permettraient de comprendre des liens de cause à effet « legacy data »,
34
- Suivi des patients (dossier médical du patient).
3. Economie
4. Recherche
Les méthodes d'analyse des données pour le Big Data sont de trois types principaux :
- Les méthodes descriptives visent à mettre en évidence des informations présentes mais
cachées par le volume des données [Tuffery, 2014]. Parmi les techniques et algorithmes
utilisés dans l'analyse descriptive, on cite
o Analyse factorielle (ACP et ACM)
o Méthode des centres mobiles
o Classification hiérarchique
o Classification neuronale
o Recherche d'association
35
- Les méthodes prédictives visent à extrapoler de nouvelles informations à partir des
informations présentes [Tuffery, 2014]. Cette technique fait appels à de l'intelligence
artificielle, les principales méthodes sont :
o Arbres de decision
o Réseaux de neurons
o Classification bayésienne
o Support Vector Machine (SVM)
o K-plus proches voisins (KNN)
- Les méthodes prescriptive visent à identifier et anticiper les actions /décisions les plus
optimales à prendre pour arriver à la situation voulue [Gaultier, 2015].
Le Big Data et le Cloud Computing sont deux révolutions technologiques de cette décennie. Le
Big Data propose des solutions de traitement des données massives alors que le Cloud offre des
services de dématérialisation des ressources informatiques comme le SaaS (Software as a Service),
PaaS (Platform as a Service), IaaS (Infrastructure as a Service) et dernièrement DaaS (Data as a
Service).
La relation entre Big Data et Cloud peut s’articuler sur l’utilisation conjointe de ces deux
technologies. Est ce que c’est vraiment nécessaire d’avoir une infrastructure Cloud pour faire
fonctionner une plateforme Big Data ? Si oui est ce que les solutions Big Data fonctionneront sur
le Cloud ?
On peut facilement faire du Big Data sans Cloud. Dans les travaux de Radu Tudoran [Tudoran,
2014] il donne une réponse à notre question par : « Un aspect particulier complexe et difficile de
la gestion des données pour les applications Big Data est la manipulation des données à travers de
vastes zones et / ou à travers les data centers. Il présente aussi les principales raisons pour
lesquelles les applications ont besoin de distribuer géographiquement le calcul sur le Cloud, qui
sont les suivantes :
- La taille des données peut être si grande que les données doivent être stockées sur
plusieurs data centers.
36
- Les sources de données peuvent être distribuées physiquement dans des lieux
géographiques larges.
- La nature de l'analyse, ce qui nécessite l'agrégation des flux de données à partir des
instances d'applications distantes pour un nombre croissant de services. Services à
grande échelle, comme les moteurs de recherche ou des outils de bureau en ligne
fonctionnent sur des dizaines de data centers partout dans le monde.
Le Big Data et le Cloud doivent être deux à deux complémentaires. Le Big Data doit être intégré
dans les technologies du Cloud. C’est un objectif qui pose de nouveaux défis aux chercheurs.
Le Big Data pose des défis pour l'analyse de texte et le traitement du langage naturel en raison de
ses caractéristiques de volume, la véracité, et la vitesse des données. Le volume en termes de
nombre de documents défie les systèmes de stockage locaux et d'indexation traditionnels pour
l’analyse et l’extraction de connaissances à grande échelle. Le calcul, le stockage et la
représentation de données doivent fonctionner ensemble pour fournir un accès rapide, la
recherche, l'extraction de la connaissance à partir de grandes collections de textes [Plale, 2013]
La recherche d’information fait partie des domaines d’application du Big Data, en l’occurrence
l’analyse de données. Dans les travaux de Mavaluru [Mavaluru, 2014] décrit les fonctions clés
d’une plateforme d’analyse de données en recherche d’information pour traiter les données : les
critères d'évaluation de la plate-forme peuvent inclure la disponibilité, la continuité, la facilité
d'utilisation, l'évolutivité, la vie privée et sécurité, et l'assurance de la qualité.
1. Introduction
La mise en œuvre d’un projet Big Data nécessite le choix d’une méthode de stockage, d’une
technologie d’exploitation et des outils d’analyse de données. Pour optimiser les temps de
traitement sur des bases de données volumineuses, une panoplie de solutions existe, certains sont
en open-source et d’autres sont propriétaires. Nous allons décrire certaines de ces solutions :
2. Hadoop
Hadoop est un projet open source de la fondation Apache qui est constitué de plusieurs
composants (HDFS,MapReduce, Hive, …) , la figure suivante décrit les différents composants du
Framework :
- HDFS (Hadoop Distributed File System) système de fichiers distribués sur un ensemble de
nœud (serveurs). C’est un système tolérant aux fautes (malgré les pannes il continue à
fonctionner correctement).
- MapReduce, une technologie qui permet la parallélisation des traitements et qui s’effectue
en deux phases, la phase Map consiste en la division des traitements en sous-ensembles et
exécution en parallèle par chaque France, la phase Reduce se charge de collectée les
réponses des nœuds et les assemblent pour constitué le résulta
38
- Hive, fournit un langage de haut niveau semblable a SQL, appelé HQL, pour interagir avec
un cluster hadoop, dans le but réaliser des analyses sur une masse importante de données.
- Hbase, une base de données distribuée disposant d’un stockage structuré pour les grandes
tables. Hbase est une base de données orientée colonnes, elle fait partie des BD NoSQL
(Not only SQL).
- Pig, un système de traitement de gros volumes de données en utilisant la plateforme
Hadoop MapReduce, Il fournit les opérations de filtrage, jointure et classement des
données (conçu spécialement pour l’analyse de données)
3. Distributions de Hadoop
Hadoop est notamment distribuée par quatre acteurs qui proposent des services de formation et un
support commercial, mais également des fonctions supplémentaires4 :
◼ Cloudera: Première distribution historique d’Hadoop intégrant les packages classiques et
certains développements propriétaires comme Impala (en). Service de formation et de
support. À l’origine du Projet Impala. Pas présent en France en 2013.
◼ Hortonworks : Est une société qui développe, distribue et effectue le support d’une
distribution open source d’Apache Hadoop.
◼ MapR Technologies : MapR a développé un système de fichier pour Hadoop palliant les
limites du HDFS. MapR a également développé des technologies permettant la suppression
du name node qui est un point de contentions dans l’architecture Hadoop. Un cluster
Hadoop MapR est donc hautement disponible et permet également d’être intégré dans les
politiques de sauvegarde des données des entreprises. Un cluster MapR est vu sur le reseau
des clients comme un NAS partageant les données en NFS avec des droits POSIX.
39
l’origine du projet Drill. Ouverture des activités européennes en janvier 2013. Bureau
Français depuis mars 2013.
◼ BM BigInsights for Hadoop : 100% open source Apache Hadoop, qui propose des
extensions analytiques et d’intégration dans le SI d’entreprise. Disponible en France depuis
2010.
VII. Conclusion
A ce stade on peut dire que le Big Data est un écosystème large et complexe. Il nécessite la
maitrise des technologies matérielles et logicielles diverses (stockage, parallélisation des
traitements, virtualisation, …). Le Big Data demande de la compétence et de l’expertise dans la
maitrise et l’analyse des données.
Les usages du Big Data sont très vastes qui touchent presque tous les secteurs d’activités
(marketing, recherche, visualisation, …). Dans le domaine du transport, nous citons comme
exemple le forum international du transport5 traite la problématique « Données massives dans les
transports: applications, implications et limites », ils essayent de répondre à certaines questions
relatives à l’utilisation du Big Data par les gouvernements dans le domaine du transport urbain.
40
Conclusion générale
En conclusion, l'entrepôt de données et le Big Data jouent un rôle essentiel dans le monde des
affaires d'aujourd'hui, où les données sont devenues une ressource précieuse. L'entrepôt de données
offre une infrastructure centralisée pour la gestion et l'analyse des données, tandis que le Big Data
permet de collecter, d'organiser et d'analyser des volumes massifs de données provenant de diverses
sources.
L'entrepôt de données permet aux organisations de consolider et d'intégrer leurs données, offrant
ainsi une vision unifiée et cohérente de leurs opérations. Cela facilite les analyses approfondies, les
rapports de gestion et les prises de décision basées sur des informations factuelles. L'entrepôt de
données favorise également la collaboration entre les différentes équipes et les différents
départements d'une organisation, en leur fournissant un accès centralisé aux données.
Quant au Big Data, il offre de nouvelles opportunités d'exploration de données, de détection de
modèles et de tendances, et de génération d'informations précieuses. Les organisations peuvent tirer
parti du Big Data pour obtenir des insights approfondis sur les préférences des clients, les
comportements d'achat, les tendances du marché et bien d'autres aspects clés de leur activité. Cela
peut les aider à prendre des décisions éclairées, à améliorer leurs produits et services, à optimiser
leurs opérations et à se démarquer de la concurrence.
Cependant, il est important de noter que la gestion de l'entrepôt de données et du Big Data présente
également des défis. La sécurité des données, la qualité et l'intégrité des données, la gestion des
coûts et la nécessité de compétences analytiques avancées sont autant de défis à relever. Les
organisations doivent investir dans des infrastructures technologiques robustes, des processus de
gestion des données efficaces et des équipes compétentes pour exploiter pleinement les avantages
de l'entrepôt de données et du Big Data.
En fin de compte, l'entrepôt de données et le Big Data offrent un potentiel énorme pour les
organisations qui cherchent à exploiter pleinement la puissance de leurs données. Ils permettent
d'obtenir des informations précieuses, de prendre des décisions éclairées, d'innover et de rester
compétitifs sur le marché. En adoptant une approche stratégique de la gestion des données, les
organisations peuvent transformer leurs données en un avantage concurrentiel durable et saisir de
nouvelles opportunités de croissance.
41
Bibliographie
42
43