Rapport Bi NV

Traduit de Anglais vers Français - www.onlinedoctranslator.
com
1
2
3
20 juin 2022
Abstrait
Ce rapport propose une synthèse de notre travail à Zum-it dans le cadre de mon
stage de fin d'études. L'objectif principal de ce travail est d'utiliser des outils de
Business Intelligence et des approches de Machine Learning et Deep Learning pour
automatiser les tableaux de bord de ventes et de prévisions. La solution que nous
mettrons en place couvrira parfaitement le besoin de l'équipe Dashboard et BI au sein
de la société Zum-it, en traitant les données et en introduisant les algorithmes
appropriés pour prédire les ventes.
De plus, notre proposition de dashbording est composée des phases suivantes : la phase
de Business Intelligence consiste à traiter les données à l'aide d'un processus ETL, la
visualisation des données extraites dans un Dashboard de vente, prédire les ventes en
introduisant les algorithmes de Machine Learning et Deep Learning afin pour
sélectionner le plus effimodèle scientifique. La dernière phase est la visualisation de la
prédiction dans un tableau de bord de prédiction des ventes. Dans ce rapport, nous
avons montré que la régression forestière aléatoire est le meilleur algorithme.
Mots clés : Business Intelligence, Machine Learning, Deep Learning et

Dashboard.
1
CONTENU
1 CONTEXTE GENERAL 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 4
Présentation de l'entreprise . . . . . . . . . . . . . . . . . . . 4
1.2 Méthodologie de travail . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Comparaison . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Méthodologie de travail adoptée . . . . . . . . . . . . 6
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Compréhension des affaires 7

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Objectifs 8
commerciaux . . . . . . . . . . . . . . . . . . . . 8
2.2 Analyse de la situation existante . . . . . . . . . . . . . . 8
2.2.1 Procédure actuelle . . . . . . . . . . . . . . . . . 9
2.2.2 Problématique . . . . . . . . . . . . . . . . . . . . . 9
2.3 Objectifs d'exploration de données . . . . . . . . . . . . . . . . . . . . . dix
2.4 Planification du projet . . . . . . . . . . . . . . . . . . . . . . . . . dix
2.5 Environnement de travail . . . . . . . . . . . . . . . . . . . . 11
2.5.1 Environnement matériel . . . . . . . . . . . . . . . 11
2.5.2 Environnement logiciel ............... 12
2.6 Schéma d'architecture du système ............... 15
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Compréhension des données 17

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Collecte 18
initiale des données . . . . . . . . . . . . . . . . . . . . 18
2
CONTENU
3.1.1 Sources de collecte . . . . . . . . . . . . . . . . 18

3.1.2 Outils de collecte . . . . . . . . . . . . . . . . . . 19
3.2 Compréhension des données . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Description des données .................. 22
3.2.2 Exploration des données ................... 24
3.2.3 Vérification de la qualité des données ............... 25
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4 Préparation des données 27

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 28
Intelligence d'affaires . . . . . . . . . . . . . . . . . . . . 28
4.2 Prétraitement . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Intégration des données internes . . . . . . . . . . . . . . . . . . 30
4.3.1 ETL . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.2 Intégration des données . . . . . . . . . . . . . . . . . . 32
4.4 Identification des données . . . . . . . . . . . . . . . . . . . . . 32
4.5 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . . 33
4.6 Modélisation de l'entrepôt de données . . . . . . . . . . . . . . . . . 39
4.6.1 Techniques de modélisation DW . . . . . . . . . . . . . 39
4.6.2 Entreposage des données . . . . . . . . . . . . . . . . . 41
4.7 Alimentation de DataWarehouse . . . . . . . . . . . . . . 42
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5 Modélisation 57
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Choix des 58
techniques . . . . . . . . . . . . . . . . . . . . 58
5.1.1 Apprentissage automatique . . . . . . . . . . . . . . . . . 58
5.1.2 Apprentissage en profondeur . . . . . . . . . . . . . . . . . . . 58
5.2 Choix du modèle . . . . . . . . . . . . . . . . . . . . . 59
5.2.1 Régression linéaire . . . . . . . . . . . . . . . . . 59
5.2.2 Régression forestière aléatoire . . . . . . . . . . . . . 60
5.2.3 XGBoost . . . . . . . . . . . . . . . . . . . . . . 60
5.2.4 Mémoire à long court terme . . . . . . . . . . . . . 61
5.3 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3
CONTENU
6 Évaluation 66
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Les 67
protocoles expérimentaux utilisés . . . . . . . . . . . . . . 67
6.2 Comparer les modèles . . . . . . . . . . . . . . . . . . . . . . 68
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7 Déploiement 71
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Tableau de 72
bord . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2 Tableau de bord des ventes . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Tableau de bord de prévision des ventes . . . . . . . . . . . . . . . . . 75
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Bibliographie 81
4
LISTE DES FIGURES
1.1 Logo ZUM-IT . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 La méthodologie CRISP. . . . . . . . . . . . . . . . . . . 6
2.1 Fonctionnalité INFOR LN . . . . . . . . . . . . . . . . . . 9
2.2 Diagramme de Gantt . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Les caractéristiques de l'ordinateur "Asus". . . . . . . . . 11
2.4 Logo SSMS . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Logo Alteryx . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Logo Power BI . . . . . . . . . . . . . . . . . . . . . . . 13
2.7 Logo Microsoft Excel ................... 13
2.8 LogoPython . . . . . . . . . . . . . . . . . . . . . . . . 13
2.9 Logo Anaconda . . . . . . . . . . . . . . . . . . . . . . . 14
2.10 Logo Spyder . . . . . . . . . . . . . . . . . . . . . . . . 14
2.11 Bibliothèques Python . . . . . . . . . . . . . . . . . . . . . . . 14
2.12 Logo LaTeX . . . . . . . . . . . . . . . . . . . . . . . . 15
2.13 Schéma d'architecture du système . . . . . . . . . . . . . . . 15
3.1 Infor LN . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Interface InforLn . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Interface Infor Ln Sales . . . . . . . . . . . . . . . . . . . 20
3.4 Enregistrements INFOR LN ..................... 21
3.5 Fichier JSON . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 Fichier JSON . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.7 Exemple de données manquantes . . . . . . . . . . . . . . . . . . 26
4.1 Environnement décisionnel. . . . . . . . . . . . . . . . . . . . . . . . 28
5
LISTE DES FIGURES
4.2 Exemple de fichiers .XLSX . . . . . . . . . . . . . . . . . . . 29

4.3 Jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 La transformation du fichier INFOR LN en prétraitement . . 30
4.5 ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6 intégration des données . . . . . . . . . . . . . . . . . . . . . . . 32
4.7 Carte mentale . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.8 Création de la table « dbo.sales-db » . . . . . . . . . . . . 34
4.9 Dimension partenaire de l'entreprise . . . . . . . . . . . . . . . . 35
4.10 Dimension Dilevry ..................... 35
4.11 Dimensions Date ...................... 36
4.12 Dimensions de l'article . . . . . . . . . . . . . . . . . . . . . . . 36
4.13 Dimension commande client . . . . . . . . . . . . . . . . . . . 37
4.14 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 37
4.15 Fait de vente . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.16 Schéma ETL avec la méthode de Kimbal ............ 39
4.17 Schéma ETL avec la méthode d'Inmon ............ 40
4.18 Entrepôt de données . . . . . . . . . . . . . . . . . . . . . . . 42
4.19 Campany Partner Dimension avec Alteryx . . . . . . . . . 43
4.23 Dilevry Dimension avec Alteryx . . . . . . . . . . . . . . 44
4.24 Mappage de la dimension Dilevry . . . . . . . . . . . . . . . . 45
4.25 Exécution de la dimension de livraison . . . . . . . . . . . . . . . 45
4.26 Cote de Dilevry . . . . . . . . . . . . . . . . . . . . . 46
4.27 Dimension Date avec Alteryx ............... 46
4.28 Dimensions Date ...................... 47
4.29 Dimensions Date ...................... 47
4.30 Dimensions Date ...................... 48
6
LISTE DES FIGURES
4.39 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 52

4.40 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 53
4.41 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 53
4.42 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 54
4.43 Chiffre d'affaires . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.44 Création de faits de vente . . . . . . . . . . . . . . . . . . . . . 55
5.1 Architecture de régression linéaire . . . . . . . . . . . . . 59
5.2 Architecture de la régression de forêt aléatoire . . . . . . . . 60
5.3 Architecture de XGBoost . . . . . . . . . . . . . . . . . . 61
5.4 Architecture RNN . . . . . . . . . . . . . . . . . . . . . . 62
5.5 Architecture de l'algorithme LSTM . . . . . . . . . . . . 63
5.6 Étapes de modélisation . . . . . . . . . . . . . . . . . . . . . . . 63
5.7 Montant total des ventes . . . . . . . . . . . . . . . . . . . . 64
5.8 Fractionnement des données . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1 Architecture de XGBoost . . . . . . . . . . . . . . . . . . 70
7.1 Montant par partenaire commercial . . . . . . . . . . . . . . . . 72
7.2 Type de matrice de remise par unité de prix de vente . . . . . . . . . 73
7.3 Quantité livrée par mois . . . . . . . . . . . . . . . 73
7.4 Prix de revient détenu par l'entreprise en devise locale et
montant brut en devise locale par mois. . . . . . . . . . . 74
7.5 Quantité commandée par article . . . . . . . . . . . . . . . . . . 74
7.6 Tableau de bord des ventes . . . . . . . . . . . . . . . . . . . . . . . 75
7.7 Montant et prédiction . . . . . . . . . . . . . . . . . . . 76
7.8 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.9 Tableau de prédiction . . . . . . . . . . . . . . . . . . . . . . 77
7.10 Tableau de bord de prévision des ventes . . . . . . . . . . . . . . . . . 77
7
LISTE DES TABLEAUX
1.1 Comparaison des méthodologies . . . . . . . . . . . . . . . 5

6.1 Résultat des quatre algorithmes utilisés . . . . . . . . . . . . . 69
8
LISTE DES TABLEAUX
Liste des acronymes
IA Intelligence artificielle
BI L'intelligence d'entreprise
CRISP-DMProcessus standard interprofessionnel pour l'exploration de données
DL L'apprentissage en profondeur
DW Entrepôt de données
ERP Planification des ressources d'entreprise
ETL Extraire, Transformer, Charger
JSONNotation d'objet JavaScript
LSTMMémoire à long terme
MLMachine LearningRNN Réseau de neurones récurrents
XLSXExcel Microsoft Office Fichier de feuille de calcul au format XML ouvert
ZIPPERPlan d'amélioration des zones
99
9
Introduction générale
Dans ce monde axé sur les données, l'analyse des données est devenue essentielle dans
les processus décisionnels du secteur des services bancaires et financiers. La banque
d'investissement et d'autres activités dans lesquelles des informations en temps réel sont
utilisées, le volume, ainsi que la vitesse des données, sont devenus des facteurs critiques.
Aujourd'hui, les pratiques d'analyse de données ont simplifié la surveillance et l'évaluation
de grandes quantités de données clients, y compris les informations personnelles et de
sécurité par les banques et autres organisations financières.
Il existe plusieurs cas d'utilisation dans lesquels Big Data Analytics a contribué de manière
significative à assurer l'effutilisation efficace des données. Ces données ouvrent de nouvelles
opportunités passionnantes pour le service client qui peuvent aider à défendre des champs de
bataille tels que les paiements et ouvrir de nouvelles opportunités de services et de revenus.
La Business Intelligence BI est nécessaire pour être compétitif sur le marché actuel axé sur
les données. BI peut vous fournir des rapports significatifs et des données exploitables qui
peuvent maximiser vos revenus, améliorer effiefficacité et offrez de meilleurs résultats à
vos clients, tout en ayant un impact positif sur vos résultats. L'identification et la
priorisation des opportunités clés sont nécessaires pour maximiser vos objectifs financiers.
L'objectif d'un service de BI réussi est de localiser, collecter, stocker en toute sécurité et agréger
les éléments de données nécessaires dans un emplacement central, généralement le « cloud »
aujourd'hui, puis d'effectuer des analyses pour fournir des rapports rapidement afin de
répondre à l'évolution de la dynamique du marché et aux besoins des clients.
Notre présent rapport de projet de fin d'étude s'articulera ainsi autour de cinq grands
chapitres présentés comme suit :
Un premier chapitre intitulé "Contexte général" contenant une présentation sur le
cadre de réalisation du projet, les objectifs et le problème que l'on veut résoudre
ou améliorer, ainsi que la méthodologie de travail adoptée.
Le deuxième chapitre, intitulé « Compréhension métier », décrit quelques notions
du déroulement de notre projet, les objectifs métiers et techniques ainsi que
l'environnement de travail.
Le troisième chapitre, intitulé « Compréhension des données », sera consacré en première
place à citer les étapes de collecte des données ainsi que les outils nécessaires à cette
étape. Et deuxièmement de faire des explorations afin de mieux comprendre les données
disponibles.
Le quatrième chapitre « Préparation des données » comprend le traitement et explique
1
les méthodes appliquées aux données.
Le cinquième chapitre intitulé "Modélisation", dans lequel nous détaillons l'étape de
modélisation en présentant les composants graphiques du Dashboard.
Le seizième chapitre "Evaluation" que nous avons effectué puis évaluer
les outils choisis.
Enfin le dernier chapitre "déploiement" en présentant les composants
graphiques du Dashboard. Le rapport sera clôturé par une « conclusion » et
une liste de perspectives.
2
CHAPITRE 1
CONTEXTE GENERAL
CHAPITRE 1. CONTEXTE GENERAL
Introduction
Ce premier chapitre est consacré à la présentation de l'étude préliminaire, qui est présentée
dans ce premier chapitre. Nous commencerons par présenter notre organisation d'accueil.
Dans un deuxième temps, nous élaborerons la méthodologie de travail.
1.1 Présentation de l'entreprise
Figure 1.1 : Logo ZUM-IT
ZUM-IT est une société de conseil internationale qui se concentre sur la transformation
numérique des organisations des industries manufacturières en Europe et en Afrique. Nos
consultants sont une équipe croissante de professionnels guidés par des experts
commerciaux et industriels d'Europe et de la MEA. Nous nous concentrons sur le
développement continu de notre équipe afin d'apporter à nos clients la meilleure valeur
possible grâce à l'intégration, au développement et au conseil de logiciels d'entreprise.
Nous prenons soin les uns des autres et de la mission que nous avons.
ZUM-IT est avant tout une équipe car nous pensons que seul le travail d'équipe peut faire la différence.ff
référence. Prestations de service
ZUM-IT fournit des conseils aux entreprises internationales dans un large éventail
d'industries manufacturières.
ZUM-IT est spécialisé dans les logiciels d'entreprise d'Infor et les solutions industrielles 4.0
développées en interne pour la réalité augmentée, l'analyse de données, l'apprentissage
automatique et la gestion des performances.
• Conseil et conseil
• Logiciel d'entreprise Infor
• Solutions Industrie 4.0
• BI et analytique
• Solutions d'affaires personnalisées
4
1.2 Méthodologie de travail
1.2.1 Comparaison
Pour s'assurer du bon choix de méthodologie, nous avons dû faire une

comparaison entre trois méthodes : SCRUM, 2TUP et CRISP-DM qui est
mentionnée dans la section suivante.
Méthodologie Description Forces Faiblesses

SCRUM • Fournit un cadre de • Cycle itératif • Convient à
projet gestion de développements. équipes courtes.
avec rôles, réunions,

artefacts, règles Homme-
âge.
• Organisé autour • Mieux homme- • Ne fait pas
sprints de développer- âge global prendre en charge les changements
ments (ou itérations). risque
2TUP • Cycle de • Cycle itératif. • Surface sur les

développement en Y. • Définir les profils des phases amont
intervenants, le et développement
livrables, le en aval.
prototypes. • Pas de documenta-
• Adapté pourtion.
projets de toutes tailles
CRISP-DM • Définit une hiérarchie • Cyclique et • Non plus long
cohérente. itératif. mis à jour par le

• Ensembles de phases majeures, • Méthode neutre communauté
taches générales, taches par rapport aux métiers CRISP-DM.
spécialisée et pro- et aux outils.
cas de cessation. • le • N'in-
Souligner
• Servir des projets de « compréhension de inclure la dimension
Data Science » entreprise besoins gestion de
avant tout. priorités.
Tableau 1.1 : Comparaison des méthodologies
5
1.2.2 Méthodologie de travail adoptée
Dans cette partie nous présentons la méthodologie utilisée lors de notre projet, notre choix se
porte sur la méthodologie sur le Cross-Industry Standard Process for Data Mining (CRISP-DM),
c'est encore la seule stratégie qui peut être utilisée avec succès dans toutes les applications de
Data Science aujourd'hui. Il s'agit d'un moyen éprouvé par l'industrie de guider notre
exploration de données efforts.
Le modèle CRISP-DM décrit les étapes impliquées dans la réalisation des activités
de science des données, du besoin métier au déploiement, mais surtout définit un
cadre qui permet des itérations à travers toutes les phases. Dans les applications
du monde réel, la nature itérative permet une amélioration constante via le retour
aux tâches précédentes et la répétition de certaines actions. . La figure 1.2
schématise le diffdifférentes étapes de la méthodologie CRISP.
Figure 1.2 : La méthodologie CRISP.
Conclusion
Au cours de ce premier chapitre, nous avons d'abord présenté l'organisme d'accueil Zum-it
Tunisie. Deuxièmement, nous avons identifié le CRISP-DM utilisé dans notre solution tout
au long de la solution.
6
CHAPITRE 2
COMPRÉHENSION DES AFFAIRES
7
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
Introduction
Après avoir présenté le contexte général de notre projet dans le chapitre précédent, nous
consacrons ce chapitre à établir les objectifs commerciaux que nous nous concentrons à
atteindre en capturant les objectifs du projet. Ensuite, nous présenterons la
compréhension commerciale du projet.
2.1 Objectifs commerciaux
Notre solution est un système d'aide à la décision dont le but premier est de présenter
les informations nécessaires sur les ventes pour une meilleure compréhension de
Zum-it plutôt que d'avoir des rapports par version, ainsi que d'identifier et d'optimiser
les opportunités cachées pour les équipes some-it works allant de développeurs aux
décideurs. notre mission réside dans la mise en place de ce processus décisionnel qui
consiste à collecter, analyser et exploiter des données pour en extraire des
informations utiles en fournissant des indicateurs de suivi. Afin de maximiser
l'utilisation de l'entreprise actuelle, une approche proposée consiste à rendre INFOR
LN plus accessible aux clients et à leurs partenaires commerciaux. En conséquence,
une recherche est commandée avec les objectifs suivants :
"Améliorer la visualisation globale et détaillée des données de
vente" "prédire le service de vente."
L'étude sera provisoirement considérée comme un succès si :
"Les clients passent moins de temps à rechercher des données"
"Capacité à prévoir les ventes"
"L'étude se termine dans les délais et sous le budget"
2.2 Analyse de la situation existante
Le secteur aéronautique et automobile du monde entier s'appuie sur l'Enterprise Resource

Planning. La planification des ressources d'entreprise (ERP) fait référence à un type de logiciel
que les organisations utilisent pour gérer les activités commerciales quotidiennes . L'ERP aide
plusieurs entreprises à relier les ressources.
INFOR est depuis longtemps l'ERP le plus populaire dans ce domaine. Ce leader du
marché n'a cessé de renouveler ses fonctionnalités et ses structures. Depuis sa
création en 2002, il s'est imposé sur l'ensemble du territoire international. Il ne
cesse de proposer de nouvelles versions.
8
Il contient une société financière, une société de logistique ou les deux. Infor LN est une
solution cloud ERP globale pour les grandes et petites organisations de fabrication
complexes, offrapide et économiqueffDéploiement efficace, avec intégration de l'atelier et
de la chaîne d'approvisionnement et outils de gestion des finances, de la qualité, du
service, des commandes et des partenaires commerciaux. Le système ERP s'intègre aux
opérations pour répondre aux besoins uniques de chaque fabricant.
Figure 2.1 : Fonctionnalité INFOR LN
2.2.1 Procédure actuelle
Suite à la rencontre avec le superviseur, le représentant de la société Zum-it, et à

l'observation de la base de données fournie, nous avons constaté que les précisions
apportées par INFOR LN sont manquantes.
De plus, les données ne sont pas organisées, nous voyons des données manquantes, des
redondances, des ambiguïtés dans les lignes de nos tableaux qui ont causé la prise de beaucoup de
temps pour que nous puissions comprendre les données et détecter les besoins.
2.2.2 Problématique
De nombreuses pratiques commerciales nationales et internationales sont toujours en

concurrence car chacune d'entre elles souhaite bénéficier d'une large part de marché.
pour cela chaque fait mieux d'être conscient. c'est pourquoi Zum-it utilise INFOR LN.Ce
système offers la gestion des transactions, la planification et les services partagés, ainsi
que la capacité de modéliser les structures financières et opérationnelles. LN assiste
9
entreprises dans l'intégration des systèmes et la standardisation des données et des processus
de l'entreprise dans l'ensemble de leurs opérations. Malgré les charges que prend INFOR LN de
ces camps génère un certain manque :
• Données sous forme standard contenant de nombreuses colonnes

• Les données ne sont pas régulières et précises
• La visualisation des données n'est pas flexible
• Manque d'analyse des données
2.3 Objectifs d'exploration de données
Maintenant que l'objectif commercial a été établi, il est temps de le transformer en une réalité
d'exploration de données. La méthode suggérée implique le développement d'un système
automatisé pour collecter, analyser et prédire les données de vente d'INFOR LN. Ce système fait
partie de la solution Global Customer Portal, qui comprend également une partie Web et un
composant d'apprentissage automatique d'intelligence d'affaires. Notre solution est basée sur :
• Traitement des données avec les outils BI.

• Prédiction avec apprentissage automatique.
2.4 Planification du projet
Pour le plan, nous avons fait un diagramme de Gantt qui permet de représenter toutes les tâches
d'un projet.
dix
Figure 2.2 : Diagramme de Gantt
2.5 Environnement de travail
Dans cette section, nous présentons l'environnement matériel ainsi que

l'environnement logiciel.
2.5.1 Environnement matériel
La réalisation de notre système s'effectue sur un ordinateur "Asus" : La figure

présente les spécifications de l'ordinateur Asus.
Figure 2.3 : Les caractéristiques de l'ordinateur "Asus".
11
2.5.2 Environnement logiciel
Au niveau de cette partie, nous mentionnons les différents logiciels utilisés au cours de notre
projet :
Pour la partie BI nous avons utilisé SSMS comme outil de développement.
• SQL Server Management Studio (SSMS)
Figure 2.4 : Logo SSMS
Microsoft SQL Server Management Studio (SSMS) est un environnement intégré

pour gérer une infrastructure SQL Server. Il fournit une interface utilisateur et un
groupe d'outils avec des éditeurs de scripts riches qui interagissent avec SQL Server.
SSMS fournit des outils pour configurer, gérer et administrer des instances de
Microsoft SQL Server, et il rassemble une gamme d'outils de conception graphique et
visuelle et des éditeurs de scripts riches pour simplifier le travail avec SQL Server. Les
fonctionnalités SSMS combinées proviennent d'Enterprise Manager, de Query Analyzer
et d'Analysis Manager, ainsi que des fonctionnalités incluses dans les versions
précédentes de SQL Server. [1]
• Alteryx
Figure 2.5 : Logo Alteryx
Alteryx est utilisé pour automatiser les processus de données plus rapidement et effiment.
Il collecte, prépare et fusionne des données qui pourraient autrement prendre du temps ou
être impossibles à combiner à l'aide d'autres outils. Grâce à cela, Alteryx fournit des réponses à
des questions commerciales complexes et peut aider à simplifier ou à automatiser les processus
de données. Cela permet non seulement de gagner beaucoup de temps, mais également
d'éviter les erreurs qui auraient pu se produire si le processus avait été effectué manuellement.
12
• Power BI
Illustration 2.6 : Logo Power BI
Power BI est un ensemble de services logiciels, d'applications et de connecteurs qui

fonctionnent ensemble pour transformer vos sources de données non liées en informations
cohérentes, visuellement immersives et interactives. Vos données peuvent être une feuille de
calcul Excel ou une collection d'entrepôts de données hybrides basés sur le cloud et sur site.
Pour la partie apprentissage automatique, nous avons utilisé le langage de programmation Python
avec Spyder comme environnement de développement et leurs bibliothèques.
• Microsoft Excel
Figure 2.7 : Logo Microsoft Excel
Il s'agit d'une feuille de calcul développée par Microsoft pour Windows, Mac OS, Android et
iOS. Il comprend des outils graphiques, des tableaux croisés dynamiques et un langage de
programmation macro appelé Visual Basic Application.
• Python
Figure 2.8 : Logo Python
Python est un langage de programmation interprété, orienté objet et de haut niveau

avec une sémantique dynamique. Sa structure de données intégrée est de haut niveau.
C'est le langage le plus utilisé dans les domaines du Machine Learning, du Big Data et
13
Sciences des données.
• Anaconda
Figure 2.9 : Logo Anaconda
Anaconda Enterprise est une plateforme de science des données prête pour l'entreprise,
sécurisée et évolutive qui permet aux équipes de gérer les actifs de science des données, de
collaborer et de déployer des projets de science des données.
• Espion
Figure 2.10 : Logo Spyder
Spyder, l'environnement de développement scientifique Python, est un

développement intégré (IDE) sans environnement inclus avec Anaconda. Il comprend
l'édition de fonctionnalités, les tests interactifs, le débogage et l'introspection. La
figure 4.7 présente quelques librairies sous python.
Figure 2.11 : Bibliothèques Python
• Keras : Keras est l'une des principales API de réseau neuronal de haut niveau.
Il est écrit en Python et prend en charge plusieurs moteurs de calcul de
réseaux neuronaux.
• Pandas : Pandas est une bibliothèque qui permet de manipuler facilement des données
14
analyser : manipuler des tableaux de données avec des étiquettes variables (colonnes) et
des individus (lignes). Ces tableaux sont appelés DataFrames.
Pour la réduction de rapport nous avons utilisé du Latex.
• Latex
Figure 2.12 : Logo LaTeX
LaTeX est un système de composition de haute qualité ; il comprend des

fonctionnalités conçues pour la production de documentation technique et scientifique.
LaTeX est le standard de facto pour la communication et la publication de documents
scientifiques. LaTeX est disponible en tant que logiciel libre.
2.6 Schéma d'architecture du système
Un diagramme architectural est une représentation visuelle qui cartographie

l'implémentation physique des composants d'un système logiciel. Il montre la
structure générale du système logiciel et les associations, limitations et limites
entre chaque élément.
Pour cette procédure pas à pas, nous nous concentrerons sur les diagrammes d'architecture logicielle. Ils
décomposent les structures en couches qui montrent comment des systèmes spécifiques interagissent avec les
utilisateurs et d'autres systèmes.
Figure 2.13 : Diagramme de l'architecture du système
15
Processus
• Collectez, nettoyez et consolidez les données, extrayez les données des ventes et adaptez-
les.
• Analyse : identifier des modèles et établir des relations dans un groupe de
données .
• Répartir ou plutôt faciliter l'accessibilité des informations selon les
fonctions et les types d'utilisation.
• Reporting : processus d'accès aux données, de formatage et de livraison à l'intérieur
et à l'extérieur de l'organisation .
Conclusion
Ce chapitre a fourni un aperçu du contexte général de notre projet, nous avons précisé
nos objectifs et les besoins de Zum-it en précisant les objectifs commerciaux. Dans le
chapitre suivant, nous plongerons dans la phase de compréhension des données.
16
CHAPITRE 3
COMPRÉHENSION DES DONNÉES
17
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
Introduction
Dans ce troisième chapitre, nous allons commencer la phase de collecte des données nécessaires à
notre solution puis définir les données pour mieux les comprendre.
3.1 Collecte initiale des données
La phase de collecte de données est essentielle pour tout projet de Data Science. C'est une phase qui
demande beaucoup de temps. Dans notre cas, nous avons récupéré les données d'INFOR LN
historisées puis ces données ont été enregistrées dans des fichiers au format de données JSON
(JavaScript Object), et pour les traitements nécessaires, nous avons utilisé Python.
3.1.1 Sources de collecte

Info LN
Figure 3.1 : Infor LN
Infor Ln a été créée en 2002 par trois fonds d'investissement : Golden Gate Capital
Partners, Summit Partners et Koch Industries. Cet éditeur américain de logiciels
est la première plateforme d'analyse cloud, classée par Gartner dans son BI Magic
Quadrant. Infor se positionne à la fois comme un concurrent des legacy
(BusinessObject, Cognos, MicroStrategy) et du "Modern BI". Immergé dans un
monde de personnalisation de masse avec Infor LN. Plus de 4 500 fabricants font
confiance à LN pour améliorer, accélérer et rationaliser les processus de
fabrication les plus complexes.[2]
18
3.1.2 Outils de collecte
Des outils de collecte de données sont utilisés pour collecter les informations recherchées auprès
des répondants. Les plus utilisés sont les formulaires de vente dans Infor. Ces données sont la
ressource la plus précieuse pour les entreprises et peuvent être utilisées comme base de données
nécessaire pour adapter les outils d'évaluation en fonction des sources d'information et pour
répondre aux besoins choisis par Zum-it.
Les données historiques sont extraites de la base de données des ventes Infor Ln qui
est affichée dans les figures 3.2 et 3.3. On choisit les ventes, puis s'affichent les bons
de commande qui contiennent les données nécessaires. Nous l'extrayons au format
Json.
Illustration 3.2 : Interface Infor Ln
19
Figure 3.3 : Interface Infor Ln Sales
INFOR LN enregistre les données sous forme de fichiers d'extension ". JSON". Ces fichiers
représentent 10 fichiers compressés sous la forme ".zip". Ces fichiers sont générés
automatiquement à partir de la base de données de l'INFOR LN. Ces données sont extraites
comme indiqué dans la Figure .
20
Figure 3.4 : Enregistrements INFOR LN
La figure 5 montre un exemple de fichiers .JSON avec des attributs d'abréviation .
Illustration 3.5 : Fichier JSON
La figure 6 montre un exemple de fichiers .JSON contenant des noms d'abréviation.
21
Figure 3.6 : Fichier JSON
3.2 Compréhension des données
Nous avons commencé par expliquer les étapes de collecte de données qui ont conduit au
traitement de nombreuses données historiques des ventes d'INFOR LN. Qui consiste en la
découverte des données dans notre distribution ainsi que leur exploration.
3.2.1 Description des données
La description des données est une étape importante dans le processus d'analyse.
Cette section vise à offdescription des techniques majeures des données afin de
produire une analyse préliminaire des informations recueillies lors d'une enquête
22
très.
Les types de valeur de ces sources de données sont symboliques, il s'agit de dates et
d'heures et de numéros de commandes clients historiques. Les nombres variables dans les
sources de données incluent la quantité commandée pour chaque article, le montant
dépensé pour une vente et les informations sur la livraison et les promotions sur un article
de la base de données des ventes.fférentes commandes de données sont peu fréquentes
car les attributs de ces sources sont très différentsfférent. Les seules variables qui se
chevauchent sont les "clés", telles que les ID de partenaire commercial et les codes
d'article. Par conséquent, les données nécessitent une préparation supplémentaire afin
que vous puissiez recoder ces champs clés pour la fusion. Les attributs de ces objets avec
leurs raccourcis et leurs descriptions sont :
• "orno" > Commande client : le nom de la commande client.
• "pono"-> Ligne : La ligne de commande client.
• "sqnb" -> Sequence Number : Le numéro de séquence de la commande client.
• "ofbp" > Vendu au partenaire commercial : ID du partenaire commercial .
• "dltp"-> Delivery Type :Type de distribution.
• "dltp-kw"-> Type de diffusion (mot-clé) :Type de mot-clé dilevery.
• "item" -> Item : La référence de l'item .
• "dorg" -> Origine de la remise : la remise d'origine.
• "prix"->prix : le prix de l'article.
• "porg"->Prix Origine : Le prix d'origine.
• "porgun"->Sales Price Unit : Le prix de vente unitaire.
• "porgkw"-> Mot-clé d'origine du prix :Le prix du mot-clé d'origine.
• "citt"->Item Codesystem :Le système de code d'article.
• "citm"->Article client : L'article client .
• "qidl"->Quantité livrée : la quantité livrée.
• "stsi"->Expédier au partenaire commercial :Le partenaire d'expédition au partenaire commercial.
• "stwh"->Expédier à l'adresse :L'adresse d'expédition.

• "pmntkw"->Mot-clé de paiement :Le mot-clé de paiement.
• "dlpt" ->Conditions de livraison : les conditions de livraison .
• "odat"->Date de commande : la date de la commande.
• "ddtd"->Date de livraison demandée par le client.

• "ddch"->Date de livraison promise à l'origine : la date de livraison promise à
l'origine.
• "rdta"->Date de sortie : la date de sortie .
• "qoor"->Quantité commandée : la quantité commandée.
23
• "tprd"->Méthode de promotion multiple : la méthode de promotion multiple.

• "oltp"->Type de ligne de commande : le type de ligne de commande.
• "cuqs"->Sales Unit : L'unité de vente.

• "bind"->Quantity Unit Binding : Liaison d'unité de quantité .
• "ldam"->Remise de ligne : La remise de ligne.
• "cdis" ->Mot-clé d'origine de la remise : le mot-clé d'origine de la remise.
• "dmty"-> Type de matrice de remise : Le type de matrice de remise.
• "dtrm"->Déterminant : Déterminant.
• "dtrmkw"->Mot-clé déterminant :Mot-clé déterminant.
• "opri"->Priorité de l'ordre :La priorité de l'ordre.
• "qoorbupc"->Quantité commandée dans l'unité d'inventaire : la quantité commandée dans
l'unité inverse.
• "amgrlclc"->Montant brut dans la devise de la transaction : le montant brut dans la devise
de la transaction.
• "amgrrfrc"->Montant brut en devise locale : le montant brut en devise
locale.
• "pricrpc1"->Price inReporting Currency : Le prix dans la devise de référence.
• "disque"->Montant de la remise de ligne en devise locale : la remise de ligne en
devise locale.
• "cvat"->Code fiscal : Le code fiscal .
• "ccty"->Pays fiscal du partenaire commercial : Le pays fiscal du partenaire
commercial.
• "scmp"->Invoice Company : la campagne de facturation.
• "cocptrnc"->Prix de revient détenu par la société dans la devise de transaction : le prix de revient
détenu par la société dans la devise de transaction .
• "cocpdtwc"-> Prix de revient détenu par l'entreprise en devise locale : Le prix de
revient détenu par l'entreprise en devise locale .
• "cucprfrc"->Prix de revient détenu par la société dans la devise de référence : le prix de revient
détenu par la société dans la devise de référence•"oamt" -> Montant : Montant de la commande
client.
• "rats" > Taux de vente : Facteur de taux.
• "timestamp" ->timestamp : heure à laquelle l'action s'est produite.
3.2.2 Exploration des données
Bien que CRISP-DM suggère de mener une exploration initiale à ce stade,

l'exploration des données est difficulte sur raw JSON, comme notre INFOR LN a
24
découvert. En règle générale, les données des fichiers JSON doivent être traitées en premier dans la phase
de préparation des données pour produire des données qui peuvent être explorées de manière
significative. Cette dérogation au CRISP-DM souligne le fait que le processus peut et doit être personnalisé
en fonction de vos besoins particuliers en matière d'exploration de données. L'exploration est également
utile pour rechercher des erreurs dans les données. Alors que la plupart des sources de données sont
générées automatiquement, les informations dans la base de données INFOR LN ont été saisies en
choisissant dans la liste déroulante. Ainsi, obtenir des erreurs dans les données est minime. Nous avons un
grand nombre de données, c'est pourquoi nous choisissons d'en sélectionner une de chaque type pour
remonter la gamme.
Montant :entre 120 et 13541

Quantité Oredred :entre 1 et 7776
Taux de vente :entre 1 et 7
Prix coûtant : entre 95 et 10823
3.2.3 Vérification de la qualité des données
La vérification de la qualité des données est souvent effectuée au cours des

processus de description et d'exploration. Certains des problèmes rencontrés par
Zum-it incluent :
• Données manquantes : les données manquantes connues incluent les attributs non remplis
de quantité ou les attributs quantitatifs qui n'ont pas de liste déroulante saisie manuellement
par les utilisateurs.
Ceci est un exemple de données manquantes dans cette figure.
25
Figure 3.7 : Exemple de données manquantes
• Erreurs de données : la plupart des sources de données sont générées automatiquement.

ce n'est pas un grand souci. Des erreurs typographiques dans la base de données de produits peuvent être
trouvées au cours du processus d'exploration.
Conclusion
Dans ce chapitre, nous avons commencé par décrire la procédure de collecte de nos
données historiques. Ensuite, nous avons fait la description des données, par la suite nous
les avons explorées et à la fin nous avons vérifié leur qualité. La partie de la préparation
des données est abordée dans le chapitre suivant.
26
CHAPITRE 4
PRÉPARATION DES DONNÉES
27
CHAPITRE 4. PRÉPARATION DES DONNÉES
Introduction
Dans ce chapitre, nous aborderons le processus de préparation des données en mettant en

lumière les deux étapes, qui sont : le nettoyage des données et la transformation des données
pour une utilisation dans plusieurs phases d'avancement du projet.
4.1 Intelligence d'affaires
La troisième étape Préparation des données, qui commence par le prétraitement. Cette partie
est composée de trois sous-sections. Dans la première sous-section, nous présentons la fusion
de données. La seconde détaille la partie BI du processus ETL et ces étapes. La dernière sous-
section contient l'apprentissage automatique.
Dans cette partie nous présenterons les techniques utilisées lors de notre projet.
• L'intelligence d'entreprise
La Business Intelligence est un ensemble de processus, d'architectures et de technologies qui
convertissent les données brutes en informations significatives qui conduisent à des actions
commerciales rentables. Il s'agit d'une suite de logiciels et de services permettant de transformer les
données en informations et connaissances exploitables qui ont un impact direct sur les décisions
commerciales stratégiques, tactiques et opérationnelles de l'organisation. La Business Intelligence
prend en charge la prise de décision basée sur des faits en utilisant des données historiques plutôt
que des hypothèses et des sentiments instinctifs.[3]
Les outils de BI effectuent des analyses de données et créent des rapports, des résumés, des tableaux de
bord, des cartes, des diagrammes et des graphiques pour fournir aux utilisateurs des informations
détaillées sur la nature de l'entreprise. La Figure II.2 décrit l'environnement BI.
Figure 4.1 : Environnement BI.
28
4.2 Prétraitement
L'étude de fichiers .JSON séparés nous a conduit à constater le difficultures auxquelles sont
confrontées les équipes de Zum-it, d'où le choix du code Python. Ce dernier permet
d'effacer les raccourcis. Pour implémenter cette solution, nous avons opté pour l'approche
suivante, nous plaçons les attributs des fichiers .JSON dans une trame de données, puis les
transformons en fichier Excel. Cette solution a transformé les fichiers .JSON compressés en
un seul fichier .XLSX, comme illustré, par exemple, dans la figure suivante. Ce traitement
sera effectué sur tous les fichiers compressés.
Figure 4.2 : Exemple de fichiers .XLSX
Après avoir répété ce travail avec tous les fichiers, nous avons changé les abréviations
en noms significatifs. Maintenant, nous avons changé les raccourcis dans tous nos jeux de
données. Cette figure montre un exemple qui est une capture de fichier reçu après le
prétraitement. Nous présentons le résultat de la phase de prétraitement mentionnée dans
notre solution.
29
Figure 4.3 : Jeu de données
La figure 6 montre la transformation de prétraitement.
Figure 4.4 : La transformation du fichier INFOR LN en prétraitement
4.3 Intégration des données internes
La troisième étape est la préparation des données qui implique le processus ETL ou ELT qui
transforme les éléments de données en quelque chose d'utile par le processus. L'ETL est
l'un des processus importants requis par la Business Intelligence. Un ETL extrait les
données pertinentes et les charge dans l'ODS. de l'entrepôt de données.
30
4.3.1 ETL
ETL signifie "Extraire, Transformer et Charger". Le processus ETL comprend 3 étapes qui
permettent l'intégration des données de la source à la destination : extraction des
données, transformation des données et chargement des données.
Extraction, dans laquelle les données brutes sont extraites d'une source ou de plusieurs sources.
Les données peuvent provenir d'applications transactionnelles, telles que les données de planification
des ressources d'entreprise (ERP) . Pour créer un entrepôt de données, l'extraction implique
généralement de combiner les données de ces différentes sources en un seul ensemble de données,
puis de valider les données avec des données invalides signalées ou supprimées. Les données
extraites peuvent être de plusieurs formats, tels que les bases de données relationnelles, XML, XLSX
et autres.
Transformation, dans laquelle les données sont mises à jour pour correspondre aux
besoins d'une organisation et aux exigences de sa solution de stockage de données. La
transformation peut impliquer la normalisation (conversion de tous les types de données au
même format), le nettoyage (résolution des incohérences et des inexactitudes), le mappage
(combinaison d'éléments de données de deux modèles de données ou plus), l'augmentation
(extraction de données d'autres sources) et autres.
Chargement, dans lequel les données sont livrées et sécurisées pour le partage, rendant les
données prêtes à l'emploi disponibles pour d'autres utilisateurs et services, à la fois au sein de
l'organisation et à l'extérieur. Ce processus peut inclure l'écrasement des données existantes de
la destination.[4]
Le processus ETL est décrit dans cette figure .
Figure 4.5 : ETL
31
4.3.2 Intégration des données
Dans cette étape, nous détaillerons les étapes de montage du

projet décisionnel . Dans un premier temps, nous avons commencé
par fusionner les fichiers Excel du logiciel Altryx. Ensuite, nous
avons appliqué un filtre qui filtre les valeurs non nulles et rend la
macro itérative qui boucle les enregistrements dans le flux de
travail. Ensuite, nous avons appliqué l'outil de nettoyage des
données qui supprime les colonnes et les lignes vides ou
manquantes. En effet, nous avons 8 fichiers Excel en entrée, 7
Union Tools, 1 Filter Tool et 1Data Cleansing Tool. plus ou moins
que ce nombre. C'est pourquoi nous ajoutons l'itération au
préalable afin que notre solution reste valide si le nombre de
fichiers diminue ou augmente. Simplement, afin d'automatiser la
solution à un certain nombre de fichiers.
Figure 4.6 : intégration des données
4.4 Identification des données
Une fois le processus d'intégration des données bien conceptualisé, il est temps de commencer le
travail pratique. Mais d'abord, en guise de rappel de la planification du projet, une bonne pratique
consiste à créer une carte mentale entourant les données et les fonctionnalités de l'entreprise.
32
Figure 4.7 : Carte mentale
Nous avons constaté que la base de données du système INFOR LN contenant les données nécessaires est prête à
être chargée.
Nous présentons les caractéristiques des données nous ed dans notre solution dans le tableau.
Caractéristiques Données
Taper XLSX
Taille 3,2 Mo
Nombre d'observations 2176
Nombre de colonnes d'observation 47
4.5 Modélisation des données
Il s'agit d'une tâche fondamentale pour utiliser l'exécution de SSMS . Pour cela, nous
devons planifier le package de SQL Server. Au début, nous créons la base de données
"sales-db". Par la suite, nous importons la table « dbo.sales-db » dans le fichier
résultats de l'intégration des données dans SQL Server Management Studio comme le
montre la figure ci-dessous.
33
Figure 4.8 : Création de la table « dbo.sales-db »
Maintenant, nous commençons la modélisation des données qui s'est produite à trois niveaux :
physique, logique et conceptuel. Un modèle physique est un schéma ou un cadre de stockage
physique des données dans une base de données.
Un modèle conceptuel identifie la vue utilisateur de haut niveau des données.
Un modèle de données logique se situe entre les niveaux physique et conceptuel et
permet de séparer la représentation logique des données de leur stockage physique.
• Dim-CampanyPartenaire
34
Figure 4.9 : Dimension Partenaire de l'entreprise
Tableau (Excel)→Partenaire Dim-Campany (Microsoft SQL Server)

• Dim-Dilevry
Figure 4.10 : Cote de Dilevry
Tableau (Excel)→Dim-Dilevry (Microsoft SQL Server)

• Dim-Date
35
Figure 4.11 : Dimension Date
Tableau (Excel)→Dim-Date (Microsoft SQL Server)

• Dim-Item
Figure 4.12 : Dimension de l'article
Tableau (Excel)→Dim-Item (Microsoft SQL Server)

• Dim-SalesOrder
36
Figure 4.13 : Dimension Commande client
Tableau (Excel)→Dim-SalesOrder (Microsoft SQL Server)

• Dim-Entreposage
Tableau (Excel)→Dim-Warehousing (Microsoft SQL Server)

• Fact-Ventes
37
Figure 4.15 : Données sur les ventes
Dim-CampanyPartner +Dim-Dilevry +Dim-Date +Dim-Item + Dim-

SalesOrder + Dim-Warehousing +Table (Excel)→Fact-Sales (Microsoft SQL
Server)
• Choix du modèle
Lors du choix d'un schéma de base de données pour un entrepôt de données, les schémas en flocon de
neige et en étoile ont tendance à être des choix populaires. Notre choix s'est basé sur le schéma du
modèle Star simplement parce que :
- Volumétrique : Si la dimension a beaucoup d'attributs, on a un tableau qui prend

moins de place que le modèle en étoile.
- Il vaut mieux choisir un modèle en étoile sur les gros volumes quand le ratio devient
faible, sinon en aplatissant en une seule table les redondances seront trop
nombreuses.
- Les modèles vedettes sont plus compréhensibles au premier coup d'œil car ils sont
plus lisibles.
38
4.6 Modélisation de l'entrepôt de données
4.6.1 Techniques de modélisation DW
• La méthode Kimball
Ralph Kimball a été le pionnier de l'approche Kimball Data Warehouse, où le modèle de
données Kimball suit une approche ascendante de la conception de l'architecture Data
Warehouse (DW) dans laquelle les magasins de données sont d'abord formés en fonction des
besoins de l'entreprise.
Le diagramme en étoile est l'élément fondamental du dimensionnel. Dans ce schéma en étoile, une
table de faits est délimitée par plusieurs dimensions. Plusieurs diagrammes en étoile peuvent être
intégrés dans une modélisation dimensionnelle Kimball pour répondre à divers besoins en matière
de rapports. L'avantage du schéma en étoile est que les requêtes de table de petites dimensions
s'exécutent instantanément.
Pour intégrer les données, l'architecture Kimball DW suggère l'idée de dimensions de données
conformes. Il existe en tant que table de dimension de base partagée entre diffdifférentes
tables de faits (telles que client et produit) dans un entrepôt de données ou en tant que tables
de dimensions identiques dans divers magasins de données. Cela garantit qu'un seul élément
de données est utilisé de la même manière dans tous les faits. Cette figure montre le schéma
ETL avec la méthode de Kimbal.
Figure 4.16 : Schéma ETL avec la méthode de Kimbal
• La méthode Inmon
Bill Inmon, le père de l'entreposage de données, a proposé le concept de développement
d'un entrepôt de données qui commence par la conception de l'entreprise
39
modèle de données de l'entrepôt de données, qui identifie les principaux domaines et

entités avec lesquels l'entreprise travaille, tels que le client, le produit, le fournisseur. ,
etc. La définition de Bill Inmon d'un entrepôt de données est qu'il s'agit d'une "collecte
de données orientée sujet, non volatile, intégrée et variable dans le temps pour
soutenir les décisions de gestion".
Le modèle crée ensuite un modèle logique complet pour chaque entité principale. Par
exemple, un modèle logique est créé pour les produits avec tous les attributs associés
à cette entité. Ce modèle logique pourrait inclure dix différentes entités de sous-
produits, y compris tous les détails, tels que les moteurs d'activité, les aspects, les
relations, les dépendances et unffiliaisons. Cette figure illustre le schéma ETL avec
l'approche d'Inmon.
Figure 4.17 : Schéma ETL avec la méthode d'Inmon
• Approche Kimball contre Inmon

Ces deux approches considèrent l'entrepôt de données comme un référentiel central
prenant en charge les rapports d'activité. De plus, à la fois l'entrepôt de données
les concepts utilisent ETL pour le chargement des données. Cependant, le principal différence est dans
modéliser les données de l'entrepôt de données et les charger dans l'entrepôt de
données. L'approche utilisée pour la construction de l'entrepôt de données
influence le délai de livraison préliminaire du projet d'entreposage et la capacité à
résister à toute variation dans la conception ETL.
quelques aspects à choisir entre les deux approches :
- Exigences en matière de rapports Si vous avez besoin de rapports intégrés dans toute
l'organisation, l'approche Inmon est plus appropriée. Mais si vous souhaitez que les rapports
soient axés sur les processus métier ou l'équipe, optez pour la méthode Kimball.
40
- Date limite du projet : Concevoir un modèle de données standardisé est comparativement

plus complexe que concevoir un modèle dénormalisé. Cela rend l'approche Inmon un
processus fastidieux. Par conséquent, si vous avez moins de temps pour la livraison, optez
pour la méthode Kimball.
- Plan de recrutement prospectif : le niveau de complexité plus élevé de la construction de modèles
de données dans l'approche de l'entrepôt de données Inmon nécessite une plus grande équipe de
professionnels pour gérer l'entrepôt de données. Par conséquent, choisissez en conséquence.
- Changements fréquents : si vos besoins en matière de rapports sont susceptibles de

changer plus rapidement et que vous avez affaire à des systèmes sources volatils, optez
pour la méthode Inmon car elleffplus de flexibilité. Cependant, si les exigences de
déclaration et les systèmes sources sont relativement stables, il est préférable d'utiliser la
méthode Kimball.
- Principes organisationnels : si les parties prenantes et les responsables commerciaux de
votre organisation reconnaissent la nécessité d'un entrepôt de données et sont prêts à en
assumer les frais, la méthode d'entrepôt de données Inmon serait un pari plus sûr.
D'autre part, si les décideurs ne se soucient pas de l'essentiel du processus et ne

recherchent qu'une solution pour améliorer le reporting, alors il est suffin'hésitez pas
à opter pour la méthode d'entrepôt de données Kimball qui s'adapte à notre solution.
4.6.2 Entreposage des données
Il s'agit d'une table de faits qui inclut les identifiants des dimensions ainsi que les mesures.
Dans notre solution, nous proposons : Fact-Sales .
Tables de dimensions :Dim-CampanyPartner ,Dim-Dilevry , Dim-Date , Dim-
Item ,Dim-SalesOrder et Dim-Warehousing.
Voici notre schéma en étoile, dont il résume tout :
41
Figure 4.18 : Entrepôt de données
Le fait et les dimensions de la table seront détaillés dans la section suivante.
4.7 Alimentation de DataWarehouse
Une table de faits fonctionne avec des tables de dimensions. Une table de faits
contient les données à analyser et une table de dimension stocke des données
sur la manière dont les données de la table de faits peuvent être analysées.
Ainsi, la table de faits se compose de deux types de colonnes. La colonne des
clés étrangères permet des jointures avec des tables de dimension et les
colonnes des mesures contiennent les données en cours d'analyse. Ci-dessous,
nous présentons les étapes d'alimentation pour chaque dimension.
42
dataflowoutput est une dimension dans le Data Warehouse. Pour les faits l'entrée dataflow est
issue du fichier excel et des dimensions précédentes. La sortie du flux de données est une
dimension dans l'entrepôt de données.
• Dim-CampanyPartenaire
1/Création de flux de données
Figure 4.19 : Dimension partenaire Campany avec Alteryx
2/ Cartographie
3/Exécution
43
4/Vérification dans SQL Server Management Studio
• Dim-Dilevry
Figure 4.23 : Cotation Dilevry avec Alteryx
44
2/ Cartographie
Figure 4.24 : Mappage de la dimension de Dilevry
3/Exécution
Figure 4.25 : Exécution de la dimension de livraison
45
Figure 4.26 : Cote de Dilevry
• Dim-Date
Figure 4.27 : Dimension Date avec Alteryx
2/ Cartographie
46
3/Exécution
47
• Dim-Item
2/ Cartographie
48
3/Exécution
49
• Dim-SalesOrder
2/ Cartographie
50
3/Exécution
51
• Dim-Entreposage
2/ Cartographie
52
3/Exécution
53
• Fact-Ventes
54
Figure 4.44 : Création de faits de vente
2/ Cartographie
3/Exécution
55
L'entrepôt de données est maintenant rempli par les identifiants de toutes les dimensions pour
aligner les données déjà présentes dans la dimension précédente.
Conclusion
Ce chapitre nous a permis de décrire les techniques appliquées pour la préparation

nécessaire aux données prêtes pour l'étape suivante. Une description du travail
élaboré dans la phase de modélisation est faite dans le chapitre suivant.
56
CHAPITRE 5
LA MODÉLISATION
57
CHAPITRE 5. MODÉLISATION
Introduction
Dans ce chapitre, nous allons passer au processus de modélisation de nos données

internes de ventes et les affiner pour produire un modèle clair capable de fournir les
informations nécessaires à la prévision des ventes.
5.1 Choix des techniques
Dans le monde d'aujourd'hui axé sur la technologie de l'intelligence artificielle, de l'apprentissage

automatique et de l'apprentissage en profondeur, la prévision des prix est devenue extrêmement
populaire. Cela est dû à la disponibilité de nombreuses données et à l'analyse systématique de ces
données par diffalgorithmes érents. Comme nous le savons, les marchés boursiers ont toujours
été un mode d'investissement très important pour les entreprises et aujourd'hui, en raison de
l'intelligence artificielle et de ses différents algorithmes sont devenus beaucoup plus faciles, moins
chronophages et plus fiables.
Maintenant, nous allons présenter les techniques utilisées lors de notre solution.
5.1.1 Apprentissage automatique
L'apprentissage automatique (ML) est une application de l'intelligence artificielle (IA) qui permet aux
systèmes d'apprendre et de s'améliorer à partir de l'expérience sans être explicitement programmés.
L'apprentissage automatique se concentre sur le développement de programmes informatiques capables
d'accéder aux données et de les utiliser pour apprendre par eux-mêmes.
Le ML s'est avéré précieux car il peut résoudre des problèmes à une vitesse et à une échelle qui
ne peuvent pas être reproduites par l'esprit humain seul. Avec des quantités massives de
capacité de calcul derrière une seule tâche ou plusieurs tâches spécifiques, les machines
peuvent être formées pour identifier les modèles et les relations entre les données d'entrée et
automatiser les processus de routine.[5]
5.1.2 Apprentissage en profondeur
Deep Learning (DL) est une fonction d'intelligence artificielle qui imite le fonctionnement du cerveau
humain dans le traitement des données et la création de modèles à utiliser dans la prise de décision.
L'apprentissage en profondeur est un sous-ensemble de l'apprentissage automatique par intelligence
artificielle (IA) qui dispose de réseaux capables d'apprendre sans supervision à partir de données non
structurées ou non étiquetées. Également connu sous le nom d'apprentissage neuronal profond ou réseau
de neurones profond.[6]
58
5.2 Choix du modèle
Une fois que nous en avons terminé avec le processus de préparation des données, nous sommes
prêts à modéliser nos données en tant que régression ou classification basée sur une tâche ou une
étiquette cible. Dans nos cas, nous devons prédire la valeur des ventes, il s'agit donc d'une tâche de
régression. Dans cette étape, nous étudions les algorithmes d'apprentissage automatique,
l'apprentissage en profondeur dans la prédiction des ventes et choisissons celui qui correspond à
nos données. Notre choix s'appuie sur la régression linéaire, la régression forestière aléatoire,
xgboost et LSTM pour prédire les ventes. Nous allons construire un modèle pour tenter de prédire
les ventes.
5.2.1 Régression linéaire
La régression linéaire est un algorithme d'apprentissage automatique supervisé qui trouve

la meilleure relation d'ajustement linéaire sur l'ensemble de données donné, entre les
variables indépendantes et dépendantes. . Il s'agit d'une approche linéaire pour modéliser
la relation entre une réponse scalaire et une ou plusieurs variables explicatives. L'analyse
de régression linéaire est utilisée pour prédire la valeur d'une variable en fonction de la
valeur d'une autre variable. La variable que vous voulez prédire s'appelle la variable
dépendante. La variable que vous utilisez pour prédire la valeur de l'autre variable est
appelée la variable indépendante.
Figure 5.1 : Architecture de la régression linéaire
59
5.2.2 Régression forestière aléatoire
Random Forest Regression est un algorithme d'apprentissage supervisé qui utilise la méthode
d'apprentissage d'ensemble pour la régression. La méthode d'apprentissage d'ensemble est
une technique qui combine les prédictions de plusieurs algorithmes d'apprentissage
automatique pour faire une prédiction plus précise qu'un modèle unique. L'algorithme
d'amorçage Random Forest combine des méthodes d'apprentissage d'ensemble avec le cadre
d'arbre de décision pour créer plusieurs arbres de décision tirés au hasard à partir des
données, en faisant la moyenne des résultats pour produire un nouveau résultat qui conduit
souvent à des prédictions/classifications solides.[7]
Figure 5.2 : Architecture de la régression de forêt aléatoire
5.2.3 XGBoost
Le gradient boosting est un algorithme d'apprentissage supervisé, qui tente de prédire avec
précision une variable cible en combinant les estimations d'un ensemble de modèles plus
simples et plus faibles. Il fournit une amplification d'arbre parallèle et est la principale
bibliothèque d'apprentissage automatique pour les problèmes de régression, de classification
et de classement. Il est essentiel pour comprendre XGBoost de comprendre d'abord les
concepts et les algorithmes d'apprentissage automatique sur lesquels XGBoost s'appuie :
apprentissage automatique supervisé, arbres de décision, apprentissage d'ensemble et
amplification de gradient.[8]
60
Figure 5.3 : Architecture de XGBoost
5.2.4 Mémoire à long court terme
Avec les récentes percées survenues dans la science des données, on constate que les
réseaux de mémoire à court terme, appelés LSTM, sont un type particulier de la famille
des réseaux de neurones récursifs (RNN) de la catégorie Deep Learning. Le RNN est
une généralisation du réseau de neurones à anticipation, qui possède une mémoire
interne, où la sortie de l'étape précédente est envoyée en entrée à l'étape en cours.
Dans d'autres réseaux de neurones traditionnels, toutes les entrées et sorties sont
indépendantes les unes des autres. Mais dans notre cas, toutes les entrées doivent
être liées les unes aux autres. C'est ainsi que RNN a résolu ce problème en utilisant
une couche cachée pour produire la sortie et réduire la complexité des paramètres. .
La caractéristique principale et la plus importante de RNN est l'état caché, qui
mémorise certaines informations sur une séquence. La figure ci-dessous explique
l'architecture de RNN.
61
Figure 5.4 : Architecture RNN
L'algorithme RNN utilise une seule fonction d'activation de la tangente hyperbolique (tanh)
pour toutes les entrées de données, elle est exprimée par l'équation .
eX−e−X
tanh(X) = (5.1)
eX+e−X
RNN standard suffer des problèmes de gradient qui disparaissent et explosent. La
mémoire à long court terme (LSTM) résout ces problèmes en introduisant de nouvelles
portes, telles que les portes de mise à jour, les portes oubliées ou les portes de
réinitialisation et les sorties (porte de sortie). LSTM est une version modifiée des réseaux
de neurones récurrents, capable d'apprendre les dépendances à long terme, c'est-à-dire la
facilité de mémorisation des données passées en mémoire. La dépendance à long terme
dans RNN est résolue en augmentant le nombre de couches répétitives dans LSTM, il
utilise diffactivation de fonctions érentes pour calculer l'état caché. La figure présente
l'architecture de l'algorithme LSTM. Les fonctions d'activation dans LSTM sont au nombre
de cinq, tandis que RNN n'a qu'une seule fonction Activation.
62
Figure 5.5 : Architecture de l'algorithme LSTM
5.3 Modélisation
Comme mentionné dans les objectifs commerciaux, nous devons construire un modèle
capable de prédire les ventes, la première chose dont nous aurons besoin, ce sont des
données. Et puisque nous essayons de prédire les ventes, nous aurons besoin de données.
Les données à utiliser dans notre modélisation sont le résultat de la phase précédente.
Cette étape consiste à diviser les données en 2/3 pour la phase d'apprentissage (train) et
1/3 pour la phase de test, puis on applique les algorithmes de ML et DL, enfin on va
calculer les performances de chaque modèle. Ces étapes sont résumées dans la figure.
Figure 5.6 : Étapes de modélisation
63
Maintenant, comme nous le savons, l'apprentissage supervisé nécessite des variables indépendantes
et dépendantes XY pour que l'algorithme apprenne / s'entraîne, nous allons donc d'abord convertir nos
données dans un tel format. Maintenant que nous avons des données avec lesquelles travailler, importons-
les à l'aide de pandas afin de pouvoir les visualiser. Nous supprimons certaines des colonnes de nos
données afin qu'il ne nous reste plus qu'un index de date et le montant pour simplifier la prédiction de la
série chronologique.
Plus précisément, nous allons obtenir le montant des ventes du 1er octobre 2013
au 18 mai 2021.
Traçons, nous avons ce chiffre.
Figure 5.7 : Montant total des ventes
Maintenant, nous avons divisé nos données de ventes historiques pour avoir un ensemble de données qui reflète l'ensemble
de train et un ensemble de données qui reflète l'ensemble de test.
64
Figure 5.8 : Répartition des données
Nous allons utiliser l'ensemble d'apprentissage pour former un modèle afin d'essayer de prédire
les valeurs sur l'ensemble de test.
Ensuite, nous construisons nos modèles.
Modèle 1 : Régression linéaire
Commençons par un modèle de base. L'un des modèles de base les plus courants pour la
régression est la régression linéaire
Modèle 2 : Régression forestière aléatoire
Nous construisons le deuxième modèle Random Forest Regression.
Modèle 3 : XGBoost
Ensuite, nous construisons le XGBoost à nos
données. Modèle 4 : LSTM
Nous utilisons un réseau neuronal récurrent pour modéliser nos données séquentielles.
Après avoir construit un modèle, nous compilons et adaptons un modèle.
Enfin, nous calculons les performances avec des protocoles expérimentaux. Son
résultat sera utilisé dans le chapitre suivant.
Conclusion
Dans ce troisième chapitre, nous avons analysé et affiné les données fournies à l'aide de
méthodes et d'algorithmes supervisés et non supervisés afin de décrire, d'expliquer et de
prédire les ventes futures qui pourraient aider Zum-it à prévenir davantage.
65
CHAPITRE 6
ÉVALUATION
66
CHAPITRE 6. ÉVALUATION
Introduction
À ce stade, nous avons terminé la majeure partie de votre projet d'exploration de données. Nous
avons également déterminé, dans la phase de modélisation, que les modèles construits sont
techniquement corrects et effeffectif, selon les critères de réussite de l'exploration de données que
vous avez définis précédemment. Nous allons maintenant passer à une évaluation de la phase de
modélisation.
6.1 Les protocoles expérimentaux utilisés
Dans notre solution, nous avons utilisé les protocoles expérimentaux de

régression : RMSE , MAE , EV , MSE et MAPE.
Erreur quadratique moyenne
Il s'agit de la racine carrée de l'erreur moyenne. L'erreur quadratique moyenne est indiquée sur la
base de l'équation.
√
1 ( )2
RMS E= Σnje=1yr − yp (6.1)
n
Erreur absolue moyenne (MAE)

Il prend la moyenne du paramètre absolu. L'équation est utilisée pour calculer
ce paramètre. MAE calcule le di absolu moyenffréférence entre yi et xi qui sont
les coordonnées du point i.
1∑ n
∣∣∣y−yp ∣∣∣
MAE= ( ) r (6.2)
n je=1
Variance expliquée (EV) [0,1]

Le score de variance expliquée est utilisé pour mesurer l'écart entre un modèle et
les données réelles.
∑
(yr−yp)
VE=1 −∑ (6.3)
( yr)
Erreur quadratique moyenne (MSE)

L'erreur quadratique moyenne mesure la moyenne des carrés des erreurs, c'est-à-dire
67
le carré moyen diffdifférence entre les valeurs estimées et la valeur

réelle.
1∑ n
MS E= ( ) (yr− yp)2 (6.4)
n je=1
Erreur absolue moyenne en pourcentage (MAPE)

L'erreur absolue moyenne en pourcentage est une mesure de la précision de la prédiction d'une
méthode de prévision dans les statistiques. Il exprime généralement la précision sous la forme d'un
rapport défini par la formule :
∣
100%∑ n∣∣y−r yp∣∣∣∣
CARTE= ( ) ∣∣∣ (6.5)
n t=1
yr
6.2 Comparer les modèles
L'étape essentielle de tout modèle d'apprentissage automatique ou d'apprentissage en

profondeur consiste à évaluer la précision du modèle. L'erreur quadratique moyenne, l'erreur
absolue moyenne, la variance expliquée, l'erreur quadratique moyenne et l'erreur absolue
moyenne en pourcentage sont utilisées pour évaluer les performances du modèle dans
l'analyse de régression pour la prévision des ventes.
68
Régression linéaire- Aléatoire pour- Xgboost LSTM

sion est Régresseur
RMSE 3073 1532 2229 1915
MAE 1734 750 1309 1128
VE 0,08 0,74 0,15 0,19
MSE 9445436 2349022 4969150 3669748
CARTE 84 140 193 216
Tableau 6.1 : Résultat des quatre algorithmes utilisés
Le tableau contient le résultat de l'évaluation de quatre algorithmes utilisés

(régression linéaire, régression de forêt aléatoire, XGBoost et LSTM). Selon ce
tableau, nous pouvons remarquer que notre modèle de régression forestière
aléatoire est le plus performant en termes de RMSE, MAE, EV, MSE et MAPE. Il est
clair que la régression forestière aléatoire MSE, MAE et RMSE sont plus petites que
la régression linéaire, XGBoost et LSTM. En revanche, l'algorithme d'apprentissage
en profondeur LSTM donne moins de résultats que l'apprentissage automatique.
En termes de comparaison entre la régression linéaire, XG-Boost et LSTM, nous
pouvons clairement remarquer que LSTM est le meilleur selon RMSE, MAE, EV, MSE
et MAPE.
Notre choix s'est porté sur Random Forest Regression car il donne les meilleurs
résultats en termes de RMSE, MAE, EV, MSE et aussi l'entreprise est la plus
intéressée par ce modèleffiefficace en termes de MAE.
En superposant la prédiction et les données de test dans Random Forest
Regression, nous avons ce chiffre qui appuie votre choix.
69
Figure 6.1 : Architecture de XGBoost
Conclusion
Ce chapitre nous a permis de décrire les techniques appliquées pour la préparation

nécessaire aux données prêtes pour l'étape suivante. Une description du travail
élaboré dans la phase de modélisation est faite dans le chapitre suivant.
70
CHAPITRE 7
DÉPLOIEMENT
71
CHAPITRE 7. DÉPLOIEMENT
Introduction
Ce chapitre est consacré au déploiement des tableaux de bord et à ses

interprétations pour fournir une visualisation claire de toutes les informations
nécessaires et ainsi permettre de prendre les bonnes décisions.
7.1 Tableau de bord
Les tableaux de bord sont un mécanisme de reporting qui regroupe et affiche des mesures et
des indicateurs clés afin qu'ils puissent être examinés en un coup d'œil par tous les publics
possibles. Il sert à afficher les informations les plus importantes et les plus utiles dans la
solution.
• Nous avons choisi d'adapter le tableau de bord sur une seule page. Il fournit la discipline
nécessaire pour se concentrer uniquement sur les informations les plus critiques et permet au public
de voir les résultats "en un coup d'œil".
• Nous avons respecté la palette de couleurs de l'entreprise pour les visualisations de données.
Nous avons choisi la couleur du logo. La couleur dominante est le bleu qui est utilisé pour faire
de la couleur d'accent pour attirer l'attention sur le titre des tableaux de bord et tous les
graphiques.
7.2 Tableau de bord des ventes
À l'aide du graphique en anneau, le montant par partenaire commercial s'affiche, contenant

l'identifiant du partenaire de l'entreprise ainsi que le montant, comme indiqué sur la figure.
Figure 7.1 : Montant par partenaire commercial
72
Le type de matrice de remise par unité de prix de vente est affiché à l'aide du graphique en
anneau qui contient la remise par prix de vente, comme indiqué sur la figure.
Figure 7.2 : Type de matrice de remise par unité de prix de vente
Le tableau des noms de quantité livrée par mois est illustré dans la figure. Il s'agit
d'un treemap qui compare la date d'origine de la date promise et la date de sortie de
la quantité commandée.
Figure 7.3 : Quantité livrée par mois
À l'aide du graphique en aires, le prix de revient détenu par la société en devise

locale et le montant brut en devise locale par mois sont affichés à l'aide du graphique
en aires qui contient le différence de coût comme le montre la figure.
73
Figure 7.4 : Prix de revient détenu par l'entreprise en monnaie locale et montant brut en
monnaie locale par mois
Le tableau Quantité commandée par article est le tableau de la quantité commandée de l'article. Il
donne le top 10 des articles commandés les plus élevés.
Figure 7.5 : Quantité commandée par article
Dans ce tableau de bord, le revenu total, le total de la quantité commandée, le montant par
partenaire commercial à l'aide du graphique en anneau, le type de matrice de remise par unité de
prix de vente est affiché à l'aide du graphique en anneau, la quantité livrée par mois à l'aide d'une
arborescence, le type de matrice de remise par ventes Unité de prix à l'aide d'un graphique en aires
et Quantité commandée par article à l'aide d'un graphique à barres groupées . Sur l'en-tête,
l'utilisation de cartes est faite pour sélectionner les attributs qui correspondent aux objectifs
d'exploration de données.
74
Figure 7.6 : Tableau de bord des ventes
7.3 Tableau de bord de prévision des ventes
Après la phase d'évaluation des modèles de machine learning et de deep learning, nous
choisissons un modèle Random Forest Regression. Nous créons un tableau de bord de
prédiction qui implémente un modèle d'apprentissage automatique.
À l'aide du graphique en aires, le montant et la prédiction sont affichés à l'aide du graphique en
aires qui contient le différence entre la valeur prévue et la dernière valeur de quantité au fil du
temps, comme indiqué sur la figure.
75
Figure 7.7 : Montant et prédiction
En utilisant un autre graphique en aires, la prédiction est affichée à l'aide du graphique en aires
qui indique la prédiction dans le temps, comme indiqué sur la figure.
Figure 7.8 : Prédiction
À l'aide du tableau, Montant 1 mois, Montant 2 mois et Montant 3 mois sont

affichés dont la prédiction est la moyenne des deux derniers mois pour prédire
le troisième comme indiqué sur la figure.
76
Figure 7.9 : Tableau de prédiction
Dans ce tableau de bord, nous commençons par la carte de Date, Montant par
prévisions, prévisions, Montant en un mois Montant en deux mois Montant en trois
mois .Nous utilisons également la carte de date.
Figure 7.10 : Tableau de bord de prévision des ventes
77
Conclusion
Ce dernier chapitre prévoyait le déploiement du différents tableaux de bord en

plus de l'interprétation de chacun des graphiques pour faire une visualisation
claire de l'information nécessaire.
78
Conclusion générale
Cette phase de notre projet BI comprenait une description du contexte de notre
projet, ainsi que de notre méthodologie de travail choisie. En plus de cela, nous avons
également défini l'identification de la source de données afin d'avoir des idées claires
sur le travail qui doit être fait dans les étapes précédentes et la conception où nous
avons détaillé le schéma d'architecture du système et décrit notre environnement
logiciel qui aidera nous pour atteindre nos objectifs à la fin. Ensuite, nous avons
montré la mise en œuvre de notre travail et fourni toutes les analyses de données
nécessaires pour terminer avec la phase de dshbording. Il était également
indispensable de doter le Zum-it d'un tableau de bord pour optimiser la répartition des
tâches, optimiser l'allocation des ressources et la durée des projets.
Le projet a été techniquement bénéfique car nous avons pu maîtriser toute la

chaîne de valeur d'un projet BI à l'aide d'un outil open-source. L'intelligence
économique est un domaine très vaste et très prometteur avec plusieurs champs
d'application, et le fait d'être ingénieur spécialiste dans ce domaine c'est d'avoir le
sens de l'analyse, de la conception et de l'organisation, et c'est aussi d'avoir le sens
de l'engagement la communauté et d'assumer toutes les responsabilités qui lui
sont confiées compte tenu de l'importance cruciale de cette discipline pour la
stratégie de l'organisation.
Enfin, nous espérons avoir fait un travail sérieux et décent tout en faisant
bonne impression.
79
PERSPECTIVES
Notre solution a été faite sur ses données, qui représentent une partie d'INFOR LN.
Aussi pour les prochaines fois, nous cherchons à améliorer notre solution.
- Optimise l'entrepôt de données par le modèle de diagramme en flocon de neige, il s'applique

à la dimension de la commande client pour réduire le temps d'exécution.
- Afin de maximiser la visualisation du tableau de bord des ventes, nous pouvons diviser
plusieurs pages du tableau de bord.
- Amélioration des données non stationnaires pour les modèles construits en machine
learning à hautes performances.
- Après avoir obtenu les différents graphiques souhaités affichés sur notre tableau de
bord, nous devrons développer une interface web pour l'administrateur afin de faciliter le
contrôle des paramètres d'entrée.
80
BIBLIOGRAPHIE
[1]©Microsoft. Microsoft.https://docs.microsoft.com/en-us/ sql/

ssms/sql-server-management-studio-ssms?view= sql-server-
ver16,2022.
[2] Contributeurs Wikipédia. Infos.https://en.wikipedia.org/w/

index.php?title=Infor&oldid=1092566897,2022.
[3] Logiciel Astera. Etl.https://www.astera.com/type/blog/etl-what-

it-means-and-why-is-it-important/,2022.
[4] ARAK. L'intelligence d'entreprise. https://

arakmu.ac.ir/statistics/en/news/14042/ what-
is-business-intelligence-,2022.
[5] Expert Ai. Apprentissage automatique.https://www.expert.ai/blog/

machine-learning-definition/,2022.
[6] Objectif algorithmique . ing. Profond apprendre-
https://www.algotive.ai/blog/
tout-ce-qu'il-faut-savoir-sur-l'apprentissage-profond-de-la-
technologie-qui-imite-le-cerveau-humain,2022.
[7] Ashwin Raj. Régression forestière aléatoire. https://

versdatascience.com/a-quick-and-dirty-guide/
- to-random-forest-regression-52ca0af157f8,2022.
https://docs.aws.
[8] Amazon Web Services. Xgboost fonctionne.
amazon.com/sagemaker/latest/dg/xgboost-HowItWorks,
2022.
81

Rapport Bi NV

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Rapport Bi NV

Uploaded by

Copyright:

Available Formats

Traduit de Anglais vers Français - www.onlinedoctranslator.

Mots clés : Business Intelligence, Machine Learning, Deep Learning et

2 Compréhension des affaires 7

3 Compréhension des données 17

3.1.1 Sources de collecte . . . . . . . . . . . . . . . . 18

4 Préparation des données 27

1.1 Logo ZUM-IT . . . . . . . . . . . . . . . . . . . . . . . . 4

4.2 Exemple de fichiers .XLSX . . . . . . . . . . . . . . . . . . . 29

4.39 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 52

1.1 Comparaison des méthodologies . . . . . . . . . . . . . . . 5

Liste des acronymes

CRISP-DMProcessus standard interprofessionnel pour l'exploration de données

ERP Planification des ressources d'entreprise

ETL Extraire, Transformer, Charger

JSONNotation d'objet JavaScript

LSTMMémoire à long terme

MLMachine LearningRNN Réseau de neurones récurrents

XLSXExcel Microsoft Office Fichier de feuille de calcul au format XML ouvert

ZIPPERPlan d'amélioration des zones

1.1 Présentation de l'entreprise

Figure 1.1 : Logo ZUM-IT

référence. Prestations de service

1.2 Méthodologie de travail

Pour s'assurer du bon choix de méthodologie, nous avons dû faire une

Méthodologie Description Forces Faiblesses

avec rôles, réunions,

ments (ou itérations). risque

2TUP • Cycle de • Cycle itératif. • Surface sur les

cohérente. itératif. mis à jour par le

Tableau 1.1 : Comparaison des méthodologies

1.2.2 Méthodologie de travail adoptée

Figure 1.2 : La méthodologie CRISP.

2.1 Objectifs commerciaux

2.2 Analyse de la situation existante

Le secteur aéronautique et automobile du monde entier s'appuie sur l'Enterprise Resource

Figure 2.1 : Fonctionnalité INFOR LN

2.2.1 Procédure actuelle

Suite à la rencontre avec le superviseur, le représentant de la société Zum-it, et à

De nombreuses pratiques commerciales nationales et internationales sont toujours en

• Données sous forme standard contenant de nombreuses colonnes

2.3 Objectifs d'exploration de données

• Traitement des données avec les outils BI.

2.4 Planification du projet

Figure 2.2 : Diagramme de Gantt

2.5 Environnement de travail

Dans cette section, nous présentons l'environnement matériel ainsi que

2.5.1 Environnement matériel

La réalisation de notre système s'effectue sur un ordinateur "Asus" : La figure

Figure 2.3 : Les caractéristiques de l'ordinateur "Asus".

2.5.2 Environnement logiciel

• SQL Server Management Studio (SSMS)

Figure 2.4 : Logo SSMS

Microsoft SQL Server Management Studio (SSMS) est un environnement intégré

Figure 2.5 : Logo Alteryx

Illustration 2.6 : Logo Power BI

Power BI est un ensemble de services logiciels, d'applications et de connecteurs qui

Figure 2.7 : Logo Microsoft Excel

Figure 2.8 : Logo Python

Python est un langage de programmation interprété, orienté objet et de haut niveau

Sciences des données.

Figure 2.9 : Logo Anaconda

Figure 2.10 : Logo Spyder

Spyder, l'environnement de développement scientifique Python, est un