You are on page 1of 94

Traduit de Anglais vers Français - www.onlinedoctranslator.

com

1
2
3
20 juin 2022
Abstrait
Ce rapport propose une synthèse de notre travail à Zum-it dans le cadre de mon
stage de fin d'études. L'objectif principal de ce travail est d'utiliser des outils de
Business Intelligence et des approches de Machine Learning et Deep Learning pour
automatiser les tableaux de bord de ventes et de prévisions. La solution que nous
mettrons en place couvrira parfaitement le besoin de l'équipe Dashboard et BI au sein
de la société Zum-it, en traitant les données et en introduisant les algorithmes
appropriés pour prédire les ventes.

De plus, notre proposition de dashbording est composée des phases suivantes : la phase
de Business Intelligence consiste à traiter les données à l'aide d'un processus ETL, la
visualisation des données extraites dans un Dashboard de vente, prédire les ventes en
introduisant les algorithmes de Machine Learning et Deep Learning afin pour
sélectionner le plus effimodèle scientifique. La dernière phase est la visualisation de la
prédiction dans un tableau de bord de prédiction des ventes. Dans ce rapport, nous
avons montré que la régression forestière aléatoire est le meilleur algorithme.

Mots clés : Business Intelligence, Machine Learning, Deep Learning et


Dashboard.

1
CONTENU

1 CONTEXTE GENERAL 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 4
Présentation de l'entreprise . . . . . . . . . . . . . . . . . . . 4
1.2 Méthodologie de travail . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Comparaison . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Méthodologie de travail adoptée . . . . . . . . . . . . 6
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Compréhension des affaires 7


Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Objectifs 8
commerciaux . . . . . . . . . . . . . . . . . . . . 8
2.2 Analyse de la situation existante . . . . . . . . . . . . . . 8
2.2.1 Procédure actuelle . . . . . . . . . . . . . . . . . 9
2.2.2 Problématique . . . . . . . . . . . . . . . . . . . . . 9
2.3 Objectifs d'exploration de données . . . . . . . . . . . . . . . . . . . . . dix
2.4 Planification du projet . . . . . . . . . . . . . . . . . . . . . . . . . dix
2.5 Environnement de travail . . . . . . . . . . . . . . . . . . . . 11
2.5.1 Environnement matériel . . . . . . . . . . . . . . . 11
2.5.2 Environnement logiciel ............... 12
2.6 Schéma d'architecture du système ............... 15
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Compréhension des données 17


Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Collecte 18
initiale des données . . . . . . . . . . . . . . . . . . . . 18

2
CONTENU

3.1.1 Sources de collecte . . . . . . . . . . . . . . . . 18


3.1.2 Outils de collecte . . . . . . . . . . . . . . . . . . 19
3.2 Compréhension des données . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Description des données .................. 22
3.2.2 Exploration des données ................... 24
3.2.3 Vérification de la qualité des données ............... 25
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4 Préparation des données 27


Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 28
Intelligence d'affaires . . . . . . . . . . . . . . . . . . . . 28
4.2 Prétraitement . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Intégration des données internes . . . . . . . . . . . . . . . . . . 30
4.3.1 ETL . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.2 Intégration des données . . . . . . . . . . . . . . . . . . 32
4.4 Identification des données . . . . . . . . . . . . . . . . . . . . . 32
4.5 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . . 33
4.6 Modélisation de l'entrepôt de données . . . . . . . . . . . . . . . . . 39
4.6.1 Techniques de modélisation DW . . . . . . . . . . . . . 39
4.6.2 Entreposage des données . . . . . . . . . . . . . . . . . 41
4.7 Alimentation de DataWarehouse . . . . . . . . . . . . . . 42
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5 Modélisation 57
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Choix des 58
techniques . . . . . . . . . . . . . . . . . . . . 58
5.1.1 Apprentissage automatique . . . . . . . . . . . . . . . . . 58
5.1.2 Apprentissage en profondeur . . . . . . . . . . . . . . . . . . . 58
5.2 Choix du modèle . . . . . . . . . . . . . . . . . . . . . 59
5.2.1 Régression linéaire . . . . . . . . . . . . . . . . . 59
5.2.2 Régression forestière aléatoire . . . . . . . . . . . . . 60
5.2.3 XGBoost . . . . . . . . . . . . . . . . . . . . . . 60
5.2.4 Mémoire à long court terme . . . . . . . . . . . . . 61
5.3 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3
CONTENU

6 Évaluation 66
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Les 67
protocoles expérimentaux utilisés . . . . . . . . . . . . . . 67
6.2 Comparer les modèles . . . . . . . . . . . . . . . . . . . . . . 68
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

7 Déploiement 71
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Tableau de 72
bord . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2 Tableau de bord des ventes . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Tableau de bord de prévision des ventes . . . . . . . . . . . . . . . . . 75
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

Bibliographie 81

4
LISTE DES FIGURES

1.1 Logo ZUM-IT . . . . . . . . . . . . . . . . . . . . . . . . 4


1.2 La méthodologie CRISP. . . . . . . . . . . . . . . . . . . 6
2.1 Fonctionnalité INFOR LN . . . . . . . . . . . . . . . . . . 9
2.2 Diagramme de Gantt . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Les caractéristiques de l'ordinateur "Asus". . . . . . . . . 11
2.4 Logo SSMS . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Logo Alteryx . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Logo Power BI . . . . . . . . . . . . . . . . . . . . . . . 13
2.7 Logo Microsoft Excel ................... 13
2.8 LogoPython . . . . . . . . . . . . . . . . . . . . . . . . 13
2.9 Logo Anaconda . . . . . . . . . . . . . . . . . . . . . . . 14
2.10 Logo Spyder . . . . . . . . . . . . . . . . . . . . . . . . 14
2.11 Bibliothèques Python . . . . . . . . . . . . . . . . . . . . . . . 14
2.12 Logo LaTeX . . . . . . . . . . . . . . . . . . . . . . . . 15
2.13 Schéma d'architecture du système . . . . . . . . . . . . . . . 15
3.1 Infor LN . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Interface InforLn . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Interface Infor Ln Sales . . . . . . . . . . . . . . . . . . . 20
3.4 Enregistrements INFOR LN ..................... 21
3.5 Fichier JSON . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 Fichier JSON . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.7 Exemple de données manquantes . . . . . . . . . . . . . . . . . . 26
4.1 Environnement décisionnel. . . . . . . . . . . . . . . . . . . . . . . . 28

5
LISTE DES FIGURES

4.2 Exemple de fichiers .XLSX . . . . . . . . . . . . . . . . . . . 29


4.3 Jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 La transformation du fichier INFOR LN en prétraitement . . 30
4.5 ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6 intégration des données . . . . . . . . . . . . . . . . . . . . . . . 32
4.7 Carte mentale . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.8 Création de la table « dbo.sales-db » . . . . . . . . . . . . 34
4.9 Dimension partenaire de l'entreprise . . . . . . . . . . . . . . . . 35
4.10 Dimension Dilevry ..................... 35
4.11 Dimensions Date ...................... 36
4.12 Dimensions de l'article . . . . . . . . . . . . . . . . . . . . . . . 36
4.13 Dimension commande client . . . . . . . . . . . . . . . . . . . 37
4.14 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 37
4.15 Fait de vente . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.16 Schéma ETL avec la méthode de Kimbal ............ 39
4.17 Schéma ETL avec la méthode d'Inmon ............ 40
4.18 Entrepôt de données . . . . . . . . . . . . . . . . . . . . . . . 42
4.19 Campany Partner Dimension avec Alteryx . . . . . . . . . 43
4.20 Dimension partenaire de l'entreprise . . . . . . . . . . . . . . . . 43
4.21 Dimension partenaire de l'entreprise . . . . . . . . . . . . . . . . 44
4.22 Dimension partenaire de l'entreprise . . . . . . . . . . . . . . . . 44
4.23 Dilevry Dimension avec Alteryx . . . . . . . . . . . . . . 44
4.24 Mappage de la dimension Dilevry . . . . . . . . . . . . . . . . 45
4.25 Exécution de la dimension de livraison . . . . . . . . . . . . . . . 45
4.26 Cote de Dilevry . . . . . . . . . . . . . . . . . . . . . 46
4.27 Dimension Date avec Alteryx ............... 46
4.28 Dimensions Date ...................... 47
4.29 Dimensions Date ...................... 47
4.30 Dimensions Date ...................... 48
4.31 Dimensions de l'article . . . . . . . . . . . . . . . . . . . . . . . 48
4.32 Dimensions de l'article . . . . . . . . . . . . . . . . . . . . . . . 49
4.33 Dimensions de l'article . . . . . . . . . . . . . . . . . . . . . . . 49
4.34 Dimensions de l'article . . . . . . . . . . . . . . . . . . . . . . . 50
4.35 Dimension commande client . . . . . . . . . . . . . . . . . . . 50
4.36 Dimension commande client . . . . . . . . . . . . . . . . . . . 51
4.37 Dimension commande client . . . . . . . . . . . . . . . . . . . 51
4.38 Dimension commande client . . . . . . . . . . . . . . . . . . . 52

6
LISTE DES FIGURES

4.39 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 52


4.40 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 53
4.41 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 53
4.42 Dimensions Date . . . . . . . . . . . . . . . . . . . . . . . 54
4.43 Chiffre d'affaires . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.44 Création de faits de vente . . . . . . . . . . . . . . . . . . . . . 55
4.45 Chiffre d'affaires . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.46 Chiffre d'affaires . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1 Architecture de régression linéaire . . . . . . . . . . . . . 59
5.2 Architecture de la régression de forêt aléatoire . . . . . . . . 60
5.3 Architecture de XGBoost . . . . . . . . . . . . . . . . . . 61
5.4 Architecture RNN . . . . . . . . . . . . . . . . . . . . . . 62
5.5 Architecture de l'algorithme LSTM . . . . . . . . . . . . 63
5.6 Étapes de modélisation . . . . . . . . . . . . . . . . . . . . . . . 63
5.7 Montant total des ventes . . . . . . . . . . . . . . . . . . . . 64
5.8 Fractionnement des données . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1 Architecture de XGBoost . . . . . . . . . . . . . . . . . . 70
7.1 Montant par partenaire commercial . . . . . . . . . . . . . . . . 72
7.2 Type de matrice de remise par unité de prix de vente . . . . . . . . . 73
7.3 Quantité livrée par mois . . . . . . . . . . . . . . . 73
7.4 Prix de revient détenu par l'entreprise en devise locale et
montant brut en devise locale par mois. . . . . . . . . . . 74
7.5 Quantité commandée par article . . . . . . . . . . . . . . . . . . 74
7.6 Tableau de bord des ventes . . . . . . . . . . . . . . . . . . . . . . . 75
7.7 Montant et prédiction . . . . . . . . . . . . . . . . . . . 76
7.8 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.9 Tableau de prédiction . . . . . . . . . . . . . . . . . . . . . . 77
7.10 Tableau de bord de prévision des ventes . . . . . . . . . . . . . . . . . 77

7
LISTE DES TABLEAUX

1.1 Comparaison des méthodologies . . . . . . . . . . . . . . . 5


6.1 Résultat des quatre algorithmes utilisés . . . . . . . . . . . . . 69

8
LISTE DES TABLEAUX

Liste des acronymes

IA Intelligence artificielle

BI L'intelligence d'entreprise

CRISP-DMProcessus standard interprofessionnel pour l'exploration de données

DL L'apprentissage en profondeur

DW Entrepôt de données

ERP Planification des ressources d'entreprise

ETL Extraire, Transformer, Charger

JSONNotation d'objet JavaScript

LSTMMémoire à long terme

MLMachine LearningRNN Réseau de neurones récurrents

XLSXExcel Microsoft Office Fichier de feuille de calcul au format XML ouvert

ZIPPERPlan d'amélioration des zones

99

9
Introduction générale
Dans ce monde axé sur les données, l'analyse des données est devenue essentielle dans
les processus décisionnels du secteur des services bancaires et financiers. La banque
d'investissement et d'autres activités dans lesquelles des informations en temps réel sont
utilisées, le volume, ainsi que la vitesse des données, sont devenus des facteurs critiques.
Aujourd'hui, les pratiques d'analyse de données ont simplifié la surveillance et l'évaluation
de grandes quantités de données clients, y compris les informations personnelles et de
sécurité par les banques et autres organisations financières.
Il existe plusieurs cas d'utilisation dans lesquels Big Data Analytics a contribué de manière
significative à assurer l'effutilisation efficace des données. Ces données ouvrent de nouvelles
opportunités passionnantes pour le service client qui peuvent aider à défendre des champs de
bataille tels que les paiements et ouvrir de nouvelles opportunités de services et de revenus.

La Business Intelligence BI est nécessaire pour être compétitif sur le marché actuel axé sur
les données. BI peut vous fournir des rapports significatifs et des données exploitables qui
peuvent maximiser vos revenus, améliorer effiefficacité et offrez de meilleurs résultats à
vos clients, tout en ayant un impact positif sur vos résultats. L'identification et la
priorisation des opportunités clés sont nécessaires pour maximiser vos objectifs financiers.

L'objectif d'un service de BI réussi est de localiser, collecter, stocker en toute sécurité et agréger
les éléments de données nécessaires dans un emplacement central, généralement le « cloud »
aujourd'hui, puis d'effectuer des analyses pour fournir des rapports rapidement afin de
répondre à l'évolution de la dynamique du marché et aux besoins des clients.

Notre présent rapport de projet de fin d'étude s'articulera ainsi autour de cinq grands
chapitres présentés comme suit :
Un premier chapitre intitulé "Contexte général" contenant une présentation sur le
cadre de réalisation du projet, les objectifs et le problème que l'on veut résoudre
ou améliorer, ainsi que la méthodologie de travail adoptée.
Le deuxième chapitre, intitulé « Compréhension métier », décrit quelques notions
du déroulement de notre projet, les objectifs métiers et techniques ainsi que
l'environnement de travail.
Le troisième chapitre, intitulé « Compréhension des données », sera consacré en première
place à citer les étapes de collecte des données ainsi que les outils nécessaires à cette
étape. Et deuxièmement de faire des explorations afin de mieux comprendre les données
disponibles.
Le quatrième chapitre « Préparation des données » comprend le traitement et explique

1
les méthodes appliquées aux données.
Le cinquième chapitre intitulé "Modélisation", dans lequel nous détaillons l'étape de
modélisation en présentant les composants graphiques du Dashboard.
Le seizième chapitre "Evaluation" que nous avons effectué puis évaluer
les outils choisis.
Enfin le dernier chapitre "déploiement" en présentant les composants
graphiques du Dashboard. Le rapport sera clôturé par une « conclusion » et
une liste de perspectives.

2
CHAPITRE 1
CONTEXTE GENERAL
CHAPITRE 1. CONTEXTE GENERAL

Introduction

Ce premier chapitre est consacré à la présentation de l'étude préliminaire, qui est présentée
dans ce premier chapitre. Nous commencerons par présenter notre organisation d'accueil.
Dans un deuxième temps, nous élaborerons la méthodologie de travail.

1.1 Présentation de l'entreprise

Figure 1.1 : Logo ZUM-IT

ZUM-IT est une société de conseil internationale qui se concentre sur la transformation
numérique des organisations des industries manufacturières en Europe et en Afrique. Nos
consultants sont une équipe croissante de professionnels guidés par des experts
commerciaux et industriels d'Europe et de la MEA. Nous nous concentrons sur le
développement continu de notre équipe afin d'apporter à nos clients la meilleure valeur
possible grâce à l'intégration, au développement et au conseil de logiciels d'entreprise.
Nous prenons soin les uns des autres et de la mission que nous avons.
ZUM-IT est avant tout une équipe car nous pensons que seul le travail d'équipe peut faire la différence.ff

référence. Prestations de service

ZUM-IT fournit des conseils aux entreprises internationales dans un large éventail
d'industries manufacturières.
ZUM-IT est spécialisé dans les logiciels d'entreprise d'Infor et les solutions industrielles 4.0
développées en interne pour la réalité augmentée, l'analyse de données, l'apprentissage
automatique et la gestion des performances.
• Conseil et conseil
• Logiciel d'entreprise Infor
• Solutions Industrie 4.0
• BI et analytique
• Solutions d'affaires personnalisées

4
CHAPITRE 1. CONTEXTE GENERAL

1.2 Méthodologie de travail

1.2.1 Comparaison

Pour s'assurer du bon choix de méthodologie, nous avons dû faire une


comparaison entre trois méthodes : SCRUM, 2TUP et CRISP-DM qui est
mentionnée dans la section suivante.

Méthodologie Description Forces Faiblesses


SCRUM • Fournit un cadre de • Cycle itératif • Convient à
projet gestion de développements. équipes courtes.

avec rôles, réunions,


artefacts, règles Homme-

âge.
• Organisé autour • Mieux homme- • Ne fait pas
sprints de développer- âge global prendre en charge les changements

ments (ou itérations). risque

2TUP • Cycle de • Cycle itératif. • Surface sur les


développement en Y. • Définir les profils des phases amont
intervenants, le et développement
livrables, le en aval.
prototypes. • Pas de documenta-
• Adapté pourtion.
projets de toutes tailles
CRISP-DM • Définit une hiérarchie • Cyclique et • Non plus long

cohérente. itératif. mis à jour par le


• Ensembles de phases majeures, • Méthode neutre communauté
taches générales, taches par rapport aux métiers CRISP-DM.
spécialisée et pro- et aux outils.
cas de cessation. • le • N'in-
Souligner
• Servir des projets de « compréhension de inclure la dimension
Data Science » entreprise besoins gestion de
avant tout. priorités.

Tableau 1.1 : Comparaison des méthodologies

5
CHAPITRE 1. CONTEXTE GENERAL

1.2.2 Méthodologie de travail adoptée

Dans cette partie nous présentons la méthodologie utilisée lors de notre projet, notre choix se
porte sur la méthodologie sur le Cross-Industry Standard Process for Data Mining (CRISP-DM),
c'est encore la seule stratégie qui peut être utilisée avec succès dans toutes les applications de
Data Science aujourd'hui. Il s'agit d'un moyen éprouvé par l'industrie de guider notre
exploration de données efforts.
Le modèle CRISP-DM décrit les étapes impliquées dans la réalisation des activités
de science des données, du besoin métier au déploiement, mais surtout définit un
cadre qui permet des itérations à travers toutes les phases. Dans les applications
du monde réel, la nature itérative permet une amélioration constante via le retour
aux tâches précédentes et la répétition de certaines actions. . La figure 1.2
schématise le diffdifférentes étapes de la méthodologie CRISP.

Figure 1.2 : La méthodologie CRISP.

Conclusion

Au cours de ce premier chapitre, nous avons d'abord présenté l'organisme d'accueil Zum-it
Tunisie. Deuxièmement, nous avons identifié le CRISP-DM utilisé dans notre solution tout
au long de la solution.

6
CHAPITRE 2
COMPRÉHENSION DES AFFAIRES

7
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

Introduction

Après avoir présenté le contexte général de notre projet dans le chapitre précédent, nous
consacrons ce chapitre à établir les objectifs commerciaux que nous nous concentrons à
atteindre en capturant les objectifs du projet. Ensuite, nous présenterons la
compréhension commerciale du projet.

2.1 Objectifs commerciaux

Notre solution est un système d'aide à la décision dont le but premier est de présenter
les informations nécessaires sur les ventes pour une meilleure compréhension de
Zum-it plutôt que d'avoir des rapports par version, ainsi que d'identifier et d'optimiser
les opportunités cachées pour les équipes some-it works allant de développeurs aux
décideurs. notre mission réside dans la mise en place de ce processus décisionnel qui
consiste à collecter, analyser et exploiter des données pour en extraire des
informations utiles en fournissant des indicateurs de suivi. Afin de maximiser
l'utilisation de l'entreprise actuelle, une approche proposée consiste à rendre INFOR
LN plus accessible aux clients et à leurs partenaires commerciaux. En conséquence,
une recherche est commandée avec les objectifs suivants :
"Améliorer la visualisation globale et détaillée des données de
vente" "prédire le service de vente."
L'étude sera provisoirement considérée comme un succès si :
"Les clients passent moins de temps à rechercher des données"
"Capacité à prévoir les ventes"
"L'étude se termine dans les délais et sous le budget"

2.2 Analyse de la situation existante

Le secteur aéronautique et automobile du monde entier s'appuie sur l'Enterprise Resource


Planning. La planification des ressources d'entreprise (ERP) fait référence à un type de logiciel
que les organisations utilisent pour gérer les activités commerciales quotidiennes . L'ERP aide
plusieurs entreprises à relier les ressources.
INFOR est depuis longtemps l'ERP le plus populaire dans ce domaine. Ce leader du
marché n'a cessé de renouveler ses fonctionnalités et ses structures. Depuis sa
création en 2002, il s'est imposé sur l'ensemble du territoire international. Il ne
cesse de proposer de nouvelles versions.

8
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

Il contient une société financière, une société de logistique ou les deux. Infor LN est une
solution cloud ERP globale pour les grandes et petites organisations de fabrication
complexes, offrapide et économiqueffDéploiement efficace, avec intégration de l'atelier et
de la chaîne d'approvisionnement et outils de gestion des finances, de la qualité, du
service, des commandes et des partenaires commerciaux. Le système ERP s'intègre aux
opérations pour répondre aux besoins uniques de chaque fabricant.

Figure 2.1 : Fonctionnalité INFOR LN

2.2.1 Procédure actuelle

Suite à la rencontre avec le superviseur, le représentant de la société Zum-it, et à


l'observation de la base de données fournie, nous avons constaté que les précisions
apportées par INFOR LN sont manquantes.
De plus, les données ne sont pas organisées, nous voyons des données manquantes, des
redondances, des ambiguïtés dans les lignes de nos tableaux qui ont causé la prise de beaucoup de
temps pour que nous puissions comprendre les données et détecter les besoins.

2.2.2 Problématique

De nombreuses pratiques commerciales nationales et internationales sont toujours en


concurrence car chacune d'entre elles souhaite bénéficier d'une large part de marché.
pour cela chaque fait mieux d'être conscient. c'est pourquoi Zum-it utilise INFOR LN.Ce
système offers la gestion des transactions, la planification et les services partagés, ainsi
que la capacité de modéliser les structures financières et opérationnelles. LN assiste

9
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

entreprises dans l'intégration des systèmes et la standardisation des données et des processus
de l'entreprise dans l'ensemble de leurs opérations. Malgré les charges que prend INFOR LN de
ces camps génère un certain manque :

• Données sous forme standard contenant de nombreuses colonnes


• Les données ne sont pas régulières et précises
• La visualisation des données n'est pas flexible
• Manque d'analyse des données

2.3 Objectifs d'exploration de données

Maintenant que l'objectif commercial a été établi, il est temps de le transformer en une réalité
d'exploration de données. La méthode suggérée implique le développement d'un système
automatisé pour collecter, analyser et prédire les données de vente d'INFOR LN. Ce système fait
partie de la solution Global Customer Portal, qui comprend également une partie Web et un
composant d'apprentissage automatique d'intelligence d'affaires. Notre solution est basée sur :

• Traitement des données avec les outils BI.


• Prédiction avec apprentissage automatique.

2.4 Planification du projet

Pour le plan, nous avons fait un diagramme de Gantt qui permet de représenter toutes les tâches
d'un projet.

dix
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

Figure 2.2 : Diagramme de Gantt

2.5 Environnement de travail

Dans cette section, nous présentons l'environnement matériel ainsi que


l'environnement logiciel.

2.5.1 Environnement matériel

La réalisation de notre système s'effectue sur un ordinateur "Asus" : La figure


présente les spécifications de l'ordinateur Asus.

Figure 2.3 : Les caractéristiques de l'ordinateur "Asus".

11
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

2.5.2 Environnement logiciel

Au niveau de cette partie, nous mentionnons les différents logiciels utilisés au cours de notre
projet :
Pour la partie BI nous avons utilisé SSMS comme outil de développement.

• SQL Server Management Studio (SSMS)

Figure 2.4 : Logo SSMS

Microsoft SQL Server Management Studio (SSMS) est un environnement intégré


pour gérer une infrastructure SQL Server. Il fournit une interface utilisateur et un
groupe d'outils avec des éditeurs de scripts riches qui interagissent avec SQL Server.
SSMS fournit des outils pour configurer, gérer et administrer des instances de
Microsoft SQL Server, et il rassemble une gamme d'outils de conception graphique et
visuelle et des éditeurs de scripts riches pour simplifier le travail avec SQL Server. Les
fonctionnalités SSMS combinées proviennent d'Enterprise Manager, de Query Analyzer
et d'Analysis Manager, ainsi que des fonctionnalités incluses dans les versions
précédentes de SQL Server. [1]
• Alteryx

Figure 2.5 : Logo Alteryx

Alteryx est utilisé pour automatiser les processus de données plus rapidement et effiment.
Il collecte, prépare et fusionne des données qui pourraient autrement prendre du temps ou
être impossibles à combiner à l'aide d'autres outils. Grâce à cela, Alteryx fournit des réponses à
des questions commerciales complexes et peut aider à simplifier ou à automatiser les processus
de données. Cela permet non seulement de gagner beaucoup de temps, mais également
d'éviter les erreurs qui auraient pu se produire si le processus avait été effectué manuellement.

12
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

• Power BI

Illustration 2.6 : Logo Power BI

Power BI est un ensemble de services logiciels, d'applications et de connecteurs qui


fonctionnent ensemble pour transformer vos sources de données non liées en informations
cohérentes, visuellement immersives et interactives. Vos données peuvent être une feuille de
calcul Excel ou une collection d'entrepôts de données hybrides basés sur le cloud et sur site.

Pour la partie apprentissage automatique, nous avons utilisé le langage de programmation Python
avec Spyder comme environnement de développement et leurs bibliothèques.
• Microsoft Excel

Figure 2.7 : Logo Microsoft Excel

Il s'agit d'une feuille de calcul développée par Microsoft pour Windows, Mac OS, Android et
iOS. Il comprend des outils graphiques, des tableaux croisés dynamiques et un langage de
programmation macro appelé Visual Basic Application.
• Python

Figure 2.8 : Logo Python

Python est un langage de programmation interprété, orienté objet et de haut niveau


avec une sémantique dynamique. Sa structure de données intégrée est de haut niveau.
C'est le langage le plus utilisé dans les domaines du Machine Learning, du Big Data et

13
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

Sciences des données.

• Anaconda

Figure 2.9 : Logo Anaconda

Anaconda Enterprise est une plateforme de science des données prête pour l'entreprise,
sécurisée et évolutive qui permet aux équipes de gérer les actifs de science des données, de
collaborer et de déployer des projets de science des données.
• Espion

Figure 2.10 : Logo Spyder

Spyder, l'environnement de développement scientifique Python, est un


développement intégré (IDE) sans environnement inclus avec Anaconda. Il comprend
l'édition de fonctionnalités, les tests interactifs, le débogage et l'introspection. La
figure 4.7 présente quelques librairies sous python.

Figure 2.11 : Bibliothèques Python

• Keras : Keras est l'une des principales API de réseau neuronal de haut niveau.
Il est écrit en Python et prend en charge plusieurs moteurs de calcul de
réseaux neuronaux.
• Pandas : Pandas est une bibliothèque qui permet de manipuler facilement des données

14
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

analyser : manipuler des tableaux de données avec des étiquettes variables (colonnes) et
des individus (lignes). Ces tableaux sont appelés DataFrames.
Pour la réduction de rapport nous avons utilisé du Latex.

• Latex

Figure 2.12 : Logo LaTeX

LaTeX est un système de composition de haute qualité ; il comprend des


fonctionnalités conçues pour la production de documentation technique et scientifique.
LaTeX est le standard de facto pour la communication et la publication de documents
scientifiques. LaTeX est disponible en tant que logiciel libre.

2.6 Schéma d'architecture du système

Un diagramme architectural est une représentation visuelle qui cartographie


l'implémentation physique des composants d'un système logiciel. Il montre la
structure générale du système logiciel et les associations, limitations et limites
entre chaque élément.
Pour cette procédure pas à pas, nous nous concentrerons sur les diagrammes d'architecture logicielle. Ils

décomposent les structures en couches qui montrent comment des systèmes spécifiques interagissent avec les

utilisateurs et d'autres systèmes.

Figure 2.13 : Diagramme de l'architecture du système

15
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE

Processus
• Collectez, nettoyez et consolidez les données, extrayez les données des ventes et adaptez-
les.
• Analyse : identifier des modèles et établir des relations dans un groupe de
données .
• Répartir ou plutôt faciliter l'accessibilité des informations selon les
fonctions et les types d'utilisation.
• Reporting : processus d'accès aux données, de formatage et de livraison à l'intérieur
et à l'extérieur de l'organisation .

Conclusion

Ce chapitre a fourni un aperçu du contexte général de notre projet, nous avons précisé
nos objectifs et les besoins de Zum-it en précisant les objectifs commerciaux. Dans le
chapitre suivant, nous plongerons dans la phase de compréhension des données.

16
CHAPITRE 3
COMPRÉHENSION DES DONNÉES

17
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

Introduction

Dans ce troisième chapitre, nous allons commencer la phase de collecte des données nécessaires à
notre solution puis définir les données pour mieux les comprendre.

3.1 Collecte initiale des données

La phase de collecte de données est essentielle pour tout projet de Data Science. C'est une phase qui
demande beaucoup de temps. Dans notre cas, nous avons récupéré les données d'INFOR LN
historisées puis ces données ont été enregistrées dans des fichiers au format de données JSON
(JavaScript Object), et pour les traitements nécessaires, nous avons utilisé Python.

3.1.1 Sources de collecte


Info LN

Figure 3.1 : Infor LN

Infor Ln a été créée en 2002 par trois fonds d'investissement : Golden Gate Capital
Partners, Summit Partners et Koch Industries. Cet éditeur américain de logiciels
est la première plateforme d'analyse cloud, classée par Gartner dans son BI Magic
Quadrant. Infor se positionne à la fois comme un concurrent des legacy
(BusinessObject, Cognos, MicroStrategy) et du "Modern BI". Immergé dans un
monde de personnalisation de masse avec Infor LN. Plus de 4 500 fabricants font
confiance à LN pour améliorer, accélérer et rationaliser les processus de
fabrication les plus complexes.[2]

18
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

3.1.2 Outils de collecte

Des outils de collecte de données sont utilisés pour collecter les informations recherchées auprès
des répondants. Les plus utilisés sont les formulaires de vente dans Infor. Ces données sont la
ressource la plus précieuse pour les entreprises et peuvent être utilisées comme base de données
nécessaire pour adapter les outils d'évaluation en fonction des sources d'information et pour
répondre aux besoins choisis par Zum-it.
Les données historiques sont extraites de la base de données des ventes Infor Ln qui
est affichée dans les figures 3.2 et 3.3. On choisit les ventes, puis s'affichent les bons
de commande qui contiennent les données nécessaires. Nous l'extrayons au format
Json.

Illustration 3.2 : Interface Infor Ln

19
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

Figure 3.3 : Interface Infor Ln Sales

INFOR LN enregistre les données sous forme de fichiers d'extension ". JSON". Ces fichiers
représentent 10 fichiers compressés sous la forme ".zip". Ces fichiers sont générés
automatiquement à partir de la base de données de l'INFOR LN. Ces données sont extraites
comme indiqué dans la Figure .

20
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

Figure 3.4 : Enregistrements INFOR LN

La figure 5 montre un exemple de fichiers .JSON avec des attributs d'abréviation .

Illustration 3.5 : Fichier JSON

La figure 6 montre un exemple de fichiers .JSON contenant des noms d'abréviation.

21
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

Figure 3.6 : Fichier JSON

3.2 Compréhension des données

Nous avons commencé par expliquer les étapes de collecte de données qui ont conduit au
traitement de nombreuses données historiques des ventes d'INFOR LN. Qui consiste en la
découverte des données dans notre distribution ainsi que leur exploration.

3.2.1 Description des données

La description des données est une étape importante dans le processus d'analyse.
Cette section vise à offdescription des techniques majeures des données afin de
produire une analyse préliminaire des informations recueillies lors d'une enquête

22
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

très.

Les types de valeur de ces sources de données sont symboliques, il s'agit de dates et
d'heures et de numéros de commandes clients historiques. Les nombres variables dans les
sources de données incluent la quantité commandée pour chaque article, le montant
dépensé pour une vente et les informations sur la livraison et les promotions sur un article
de la base de données des ventes.fférentes commandes de données sont peu fréquentes
car les attributs de ces sources sont très différentsfférent. Les seules variables qui se
chevauchent sont les "clés", telles que les ID de partenaire commercial et les codes
d'article. Par conséquent, les données nécessitent une préparation supplémentaire afin
que vous puissiez recoder ces champs clés pour la fusion. Les attributs de ces objets avec
leurs raccourcis et leurs descriptions sont :
• "orno" > Commande client : le nom de la commande client.
• "pono"-> Ligne : La ligne de commande client.
• "sqnb" -> Sequence Number : Le numéro de séquence de la commande client.
• "ofbp" > Vendu au partenaire commercial : ID du partenaire commercial .
• "dltp"-> Delivery Type :Type de distribution.
• "dltp-kw"-> Type de diffusion (mot-clé) :Type de mot-clé dilevery.
• "item" -> Item : La référence de l'item .
• "dorg" -> Origine de la remise : la remise d'origine.
• "prix"->prix : le prix de l'article.
• "porg"->Prix Origine : Le prix d'origine.
• "porgun"->Sales Price Unit : Le prix de vente unitaire.
• "porgkw"-> Mot-clé d'origine du prix :Le prix du mot-clé d'origine.
• "citt"->Item Codesystem :Le système de code d'article.
• "citm"->Article client : L'article client .
• "qidl"->Quantité livrée : la quantité livrée.
• "stsi"->Expédier au partenaire commercial :Le partenaire d'expédition au partenaire commercial.

• "stwh"->Expédier à l'adresse :L'adresse d'expédition.


• "pmntkw"->Mot-clé de paiement :Le mot-clé de paiement.
• "dlpt" ->Conditions de livraison : les conditions de livraison .
• "odat"->Date de commande : la date de la commande.

• "ddtd"->Date de livraison demandée par le client.


• "ddch"->Date de livraison promise à l'origine : la date de livraison promise à
l'origine.
• "rdta"->Date de sortie : la date de sortie .
• "qoor"->Quantité commandée : la quantité commandée.

23
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

• "tprd"->Méthode de promotion multiple : la méthode de promotion multiple.


• "oltp"->Type de ligne de commande : le type de ligne de commande.

• "cuqs"->Sales Unit : L'unité de vente.


• "bind"->Quantity Unit Binding : Liaison d'unité de quantité .
• "ldam"->Remise de ligne : La remise de ligne.
• "cdis" ->Mot-clé d'origine de la remise : le mot-clé d'origine de la remise.
• "dmty"-> Type de matrice de remise : Le type de matrice de remise.
• "dtrm"->Déterminant : Déterminant.
• "dtrmkw"->Mot-clé déterminant :Mot-clé déterminant.
• "opri"->Priorité de l'ordre :La priorité de l'ordre.
• "qoorbupc"->Quantité commandée dans l'unité d'inventaire : la quantité commandée dans
l'unité inverse.
• "amgrlclc"->Montant brut dans la devise de la transaction : le montant brut dans la devise
de la transaction.
• "amgrrfrc"->Montant brut en devise locale : le montant brut en devise
locale.
• "pricrpc1"->Price inReporting Currency : Le prix dans la devise de référence.
• "disque"->Montant de la remise de ligne en devise locale : la remise de ligne en
devise locale.
• "cvat"->Code fiscal : Le code fiscal .
• "ccty"->Pays fiscal du partenaire commercial : Le pays fiscal du partenaire
commercial.
• "scmp"->Invoice Company : la campagne de facturation.
• "cocptrnc"->Prix de revient détenu par la société dans la devise de transaction : le prix de revient
détenu par la société dans la devise de transaction .
• "cocpdtwc"-> Prix de revient détenu par l'entreprise en devise locale : Le prix de
revient détenu par l'entreprise en devise locale .
• "cucprfrc"->Prix de revient détenu par la société dans la devise de référence : le prix de revient
détenu par la société dans la devise de référence•"oamt" -> Montant : Montant de la commande
client.
• "rats" > Taux de vente : Facteur de taux.
• "timestamp" ->timestamp : heure à laquelle l'action s'est produite.

3.2.2 Exploration des données

Bien que CRISP-DM suggère de mener une exploration initiale à ce stade,


l'exploration des données est difficulte sur raw JSON, comme notre INFOR LN a

24
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

découvert. En règle générale, les données des fichiers JSON doivent être traitées en premier dans la phase

de préparation des données pour produire des données qui peuvent être explorées de manière

significative. Cette dérogation au CRISP-DM souligne le fait que le processus peut et doit être personnalisé

en fonction de vos besoins particuliers en matière d'exploration de données. L'exploration est également

utile pour rechercher des erreurs dans les données. Alors que la plupart des sources de données sont

générées automatiquement, les informations dans la base de données INFOR LN ont été saisies en

choisissant dans la liste déroulante. Ainsi, obtenir des erreurs dans les données est minime. Nous avons un

grand nombre de données, c'est pourquoi nous choisissons d'en sélectionner une de chaque type pour

remonter la gamme.

Montant :entre 120 et 13541


Quantité Oredred :entre 1 et 7776
Taux de vente :entre 1 et 7
Prix coûtant : entre 95 et 10823

3.2.3 Vérification de la qualité des données

La vérification de la qualité des données est souvent effectuée au cours des


processus de description et d'exploration. Certains des problèmes rencontrés par
Zum-it incluent :
• Données manquantes : les données manquantes connues incluent les attributs non remplis
de quantité ou les attributs quantitatifs qui n'ont pas de liste déroulante saisie manuellement
par les utilisateurs.
Ceci est un exemple de données manquantes dans cette figure.

25
CHAPITRE 3. COMPRÉHENSION DES DONNÉES

Figure 3.7 : Exemple de données manquantes

• Erreurs de données : la plupart des sources de données sont générées automatiquement.


ce n'est pas un grand souci. Des erreurs typographiques dans la base de données de produits peuvent être

trouvées au cours du processus d'exploration.

Conclusion

Dans ce chapitre, nous avons commencé par décrire la procédure de collecte de nos
données historiques. Ensuite, nous avons fait la description des données, par la suite nous
les avons explorées et à la fin nous avons vérifié leur qualité. La partie de la préparation
des données est abordée dans le chapitre suivant.

26
CHAPITRE 4
PRÉPARATION DES DONNÉES

27
CHAPITRE 4. PRÉPARATION DES DONNÉES

Introduction

Dans ce chapitre, nous aborderons le processus de préparation des données en mettant en


lumière les deux étapes, qui sont : le nettoyage des données et la transformation des données
pour une utilisation dans plusieurs phases d'avancement du projet.

4.1 Intelligence d'affaires

La troisième étape Préparation des données, qui commence par le prétraitement. Cette partie
est composée de trois sous-sections. Dans la première sous-section, nous présentons la fusion
de données. La seconde détaille la partie BI du processus ETL et ces étapes. La dernière sous-
section contient l'apprentissage automatique.
Dans cette partie nous présenterons les techniques utilisées lors de notre projet.
• L'intelligence d'entreprise
La Business Intelligence est un ensemble de processus, d'architectures et de technologies qui
convertissent les données brutes en informations significatives qui conduisent à des actions
commerciales rentables. Il s'agit d'une suite de logiciels et de services permettant de transformer les
données en informations et connaissances exploitables qui ont un impact direct sur les décisions
commerciales stratégiques, tactiques et opérationnelles de l'organisation. La Business Intelligence
prend en charge la prise de décision basée sur des faits en utilisant des données historiques plutôt
que des hypothèses et des sentiments instinctifs.[3]
Les outils de BI effectuent des analyses de données et créent des rapports, des résumés, des tableaux de

bord, des cartes, des diagrammes et des graphiques pour fournir aux utilisateurs des informations

détaillées sur la nature de l'entreprise. La Figure II.2 décrit l'environnement BI.

Figure 4.1 : Environnement BI.

28
CHAPITRE 4. PRÉPARATION DES DONNÉES

4.2 Prétraitement

L'étude de fichiers .JSON séparés nous a conduit à constater le difficultures auxquelles sont
confrontées les équipes de Zum-it, d'où le choix du code Python. Ce dernier permet
d'effacer les raccourcis. Pour implémenter cette solution, nous avons opté pour l'approche
suivante, nous plaçons les attributs des fichiers .JSON dans une trame de données, puis les
transformons en fichier Excel. Cette solution a transformé les fichiers .JSON compressés en
un seul fichier .XLSX, comme illustré, par exemple, dans la figure suivante. Ce traitement
sera effectué sur tous les fichiers compressés.

Figure 4.2 : Exemple de fichiers .XLSX

Après avoir répété ce travail avec tous les fichiers, nous avons changé les abréviations
en noms significatifs. Maintenant, nous avons changé les raccourcis dans tous nos jeux de
données. Cette figure montre un exemple qui est une capture de fichier reçu après le
prétraitement. Nous présentons le résultat de la phase de prétraitement mentionnée dans
notre solution.

29
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.3 : Jeu de données

La figure 6 montre la transformation de prétraitement.

Figure 4.4 : La transformation du fichier INFOR LN en prétraitement

4.3 Intégration des données internes

La troisième étape est la préparation des données qui implique le processus ETL ou ELT qui
transforme les éléments de données en quelque chose d'utile par le processus. L'ETL est
l'un des processus importants requis par la Business Intelligence. Un ETL extrait les
données pertinentes et les charge dans l'ODS. de l'entrepôt de données.

30
CHAPITRE 4. PRÉPARATION DES DONNÉES

4.3.1 ETL

ETL signifie "Extraire, Transformer et Charger". Le processus ETL comprend 3 étapes qui
permettent l'intégration des données de la source à la destination : extraction des
données, transformation des données et chargement des données.

Extraction, dans laquelle les données brutes sont extraites d'une source ou de plusieurs sources.
Les données peuvent provenir d'applications transactionnelles, telles que les données de planification
des ressources d'entreprise (ERP) . Pour créer un entrepôt de données, l'extraction implique
généralement de combiner les données de ces différentes sources en un seul ensemble de données,
puis de valider les données avec des données invalides signalées ou supprimées. Les données
extraites peuvent être de plusieurs formats, tels que les bases de données relationnelles, XML, XLSX
et autres.

Transformation, dans laquelle les données sont mises à jour pour correspondre aux
besoins d'une organisation et aux exigences de sa solution de stockage de données. La
transformation peut impliquer la normalisation (conversion de tous les types de données au
même format), le nettoyage (résolution des incohérences et des inexactitudes), le mappage
(combinaison d'éléments de données de deux modèles de données ou plus), l'augmentation
(extraction de données d'autres sources) et autres.

Chargement, dans lequel les données sont livrées et sécurisées pour le partage, rendant les
données prêtes à l'emploi disponibles pour d'autres utilisateurs et services, à la fois au sein de
l'organisation et à l'extérieur. Ce processus peut inclure l'écrasement des données existantes de
la destination.[4]
Le processus ETL est décrit dans cette figure .

Figure 4.5 : ETL

31
CHAPITRE 4. PRÉPARATION DES DONNÉES

4.3.2 Intégration des données

Dans cette étape, nous détaillerons les étapes de montage du


projet décisionnel . Dans un premier temps, nous avons commencé
par fusionner les fichiers Excel du logiciel Altryx. Ensuite, nous
avons appliqué un filtre qui filtre les valeurs non nulles et rend la
macro itérative qui boucle les enregistrements dans le flux de
travail. Ensuite, nous avons appliqué l'outil de nettoyage des
données qui supprime les colonnes et les lignes vides ou
manquantes. En effet, nous avons 8 fichiers Excel en entrée, 7
Union Tools, 1 Filter Tool et 1Data Cleansing Tool. plus ou moins
que ce nombre. C'est pourquoi nous ajoutons l'itération au
préalable afin que notre solution reste valide si le nombre de
fichiers diminue ou augmente. Simplement, afin d'automatiser la
solution à un certain nombre de fichiers.

Figure 4.6 : intégration des données

4.4 Identification des données

Une fois le processus d'intégration des données bien conceptualisé, il est temps de commencer le
travail pratique. Mais d'abord, en guise de rappel de la planification du projet, une bonne pratique
consiste à créer une carte mentale entourant les données et les fonctionnalités de l'entreprise.

32
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.7 : Carte mentale

Nous avons constaté que la base de données du système INFOR LN contenant les données nécessaires est prête à

être chargée.

Nous présentons les caractéristiques des données nous ed dans notre solution dans le tableau.

Caractéristiques Données

Taper XLSX
Taille 3,2 Mo
Nombre d'observations 2176
Nombre de colonnes d'observation 47

4.5 Modélisation des données

Il s'agit d'une tâche fondamentale pour utiliser l'exécution de SSMS . Pour cela, nous
devons planifier le package de SQL Server. Au début, nous créons la base de données
"sales-db". Par la suite, nous importons la table « dbo.sales-db » dans le fichier
résultats de l'intégration des données dans SQL Server Management Studio comme le
montre la figure ci-dessous.

33
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.8 : Création de la table « dbo.sales-db »

Maintenant, nous commençons la modélisation des données qui s'est produite à trois niveaux :
physique, logique et conceptuel. Un modèle physique est un schéma ou un cadre de stockage
physique des données dans une base de données.
Un modèle conceptuel identifie la vue utilisateur de haut niveau des données.
Un modèle de données logique se situe entre les niveaux physique et conceptuel et
permet de séparer la représentation logique des données de leur stockage physique.

• Dim-CampanyPartenaire

34
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.9 : Dimension Partenaire de l'entreprise

Tableau (Excel)→Partenaire Dim-Campany (Microsoft SQL Server)


• Dim-Dilevry

Figure 4.10 : Cote de Dilevry

Tableau (Excel)→Dim-Dilevry (Microsoft SQL Server)


• Dim-Date

35
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.11 : Dimension Date

Tableau (Excel)→Dim-Date (Microsoft SQL Server)


• Dim-Item

Figure 4.12 : Dimension de l'article

Tableau (Excel)→Dim-Item (Microsoft SQL Server)


• Dim-SalesOrder

36
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.13 : Dimension Commande client

Tableau (Excel)→Dim-SalesOrder (Microsoft SQL Server)


• Dim-Entreposage

Figure 4.14 : Dimension Date

Tableau (Excel)→Dim-Warehousing (Microsoft SQL Server)


• Fact-Ventes

37
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.15 : Données sur les ventes

Dim-CampanyPartner +Dim-Dilevry +Dim-Date +Dim-Item + Dim-


SalesOrder + Dim-Warehousing +Table (Excel)→Fact-Sales (Microsoft SQL
Server)

• Choix du modèle

Lors du choix d'un schéma de base de données pour un entrepôt de données, les schémas en flocon de

neige et en étoile ont tendance à être des choix populaires. Notre choix s'est basé sur le schéma du

modèle Star simplement parce que :

- Volumétrique : Si la dimension a beaucoup d'attributs, on a un tableau qui prend


moins de place que le modèle en étoile.
- Il vaut mieux choisir un modèle en étoile sur les gros volumes quand le ratio devient
faible, sinon en aplatissant en une seule table les redondances seront trop
nombreuses.
- Les modèles vedettes sont plus compréhensibles au premier coup d'œil car ils sont
plus lisibles.

38
CHAPITRE 4. PRÉPARATION DES DONNÉES

4.6 Modélisation de l'entrepôt de données

4.6.1 Techniques de modélisation DW

• La méthode Kimball
Ralph Kimball a été le pionnier de l'approche Kimball Data Warehouse, où le modèle de
données Kimball suit une approche ascendante de la conception de l'architecture Data
Warehouse (DW) dans laquelle les magasins de données sont d'abord formés en fonction des
besoins de l'entreprise.
Le diagramme en étoile est l'élément fondamental du dimensionnel. Dans ce schéma en étoile, une
table de faits est délimitée par plusieurs dimensions. Plusieurs diagrammes en étoile peuvent être
intégrés dans une modélisation dimensionnelle Kimball pour répondre à divers besoins en matière
de rapports. L'avantage du schéma en étoile est que les requêtes de table de petites dimensions
s'exécutent instantanément.
Pour intégrer les données, l'architecture Kimball DW suggère l'idée de dimensions de données
conformes. Il existe en tant que table de dimension de base partagée entre diffdifférentes
tables de faits (telles que client et produit) dans un entrepôt de données ou en tant que tables
de dimensions identiques dans divers magasins de données. Cela garantit qu'un seul élément
de données est utilisé de la même manière dans tous les faits. Cette figure montre le schéma
ETL avec la méthode de Kimbal.

Figure 4.16 : Schéma ETL avec la méthode de Kimbal

• La méthode Inmon
Bill Inmon, le père de l'entreposage de données, a proposé le concept de développement
d'un entrepôt de données qui commence par la conception de l'entreprise

39
CHAPITRE 4. PRÉPARATION DES DONNÉES

modèle de données de l'entrepôt de données, qui identifie les principaux domaines et


entités avec lesquels l'entreprise travaille, tels que le client, le produit, le fournisseur. ,
etc. La définition de Bill Inmon d'un entrepôt de données est qu'il s'agit d'une "collecte
de données orientée sujet, non volatile, intégrée et variable dans le temps pour
soutenir les décisions de gestion".
Le modèle crée ensuite un modèle logique complet pour chaque entité principale. Par
exemple, un modèle logique est créé pour les produits avec tous les attributs associés
à cette entité. Ce modèle logique pourrait inclure dix différentes entités de sous-
produits, y compris tous les détails, tels que les moteurs d'activité, les aspects, les
relations, les dépendances et unffiliaisons. Cette figure illustre le schéma ETL avec
l'approche d'Inmon.

Figure 4.17 : Schéma ETL avec la méthode d'Inmon

• Approche Kimball contre Inmon


Ces deux approches considèrent l'entrepôt de données comme un référentiel central
prenant en charge les rapports d'activité. De plus, à la fois l'entrepôt de données
les concepts utilisent ETL pour le chargement des données. Cependant, le principal différence est dans
modéliser les données de l'entrepôt de données et les charger dans l'entrepôt de
données. L'approche utilisée pour la construction de l'entrepôt de données
influence le délai de livraison préliminaire du projet d'entreposage et la capacité à
résister à toute variation dans la conception ETL.
quelques aspects à choisir entre les deux approches :
- Exigences en matière de rapports Si vous avez besoin de rapports intégrés dans toute
l'organisation, l'approche Inmon est plus appropriée. Mais si vous souhaitez que les rapports
soient axés sur les processus métier ou l'équipe, optez pour la méthode Kimball.

40
CHAPITRE 4. PRÉPARATION DES DONNÉES

- Date limite du projet : Concevoir un modèle de données standardisé est comparativement


plus complexe que concevoir un modèle dénormalisé. Cela rend l'approche Inmon un
processus fastidieux. Par conséquent, si vous avez moins de temps pour la livraison, optez
pour la méthode Kimball.
- Plan de recrutement prospectif : le niveau de complexité plus élevé de la construction de modèles
de données dans l'approche de l'entrepôt de données Inmon nécessite une plus grande équipe de
professionnels pour gérer l'entrepôt de données. Par conséquent, choisissez en conséquence.

- Changements fréquents : si vos besoins en matière de rapports sont susceptibles de


changer plus rapidement et que vous avez affaire à des systèmes sources volatils, optez
pour la méthode Inmon car elleffplus de flexibilité. Cependant, si les exigences de
déclaration et les systèmes sources sont relativement stables, il est préférable d'utiliser la
méthode Kimball.
- Principes organisationnels : si les parties prenantes et les responsables commerciaux de
votre organisation reconnaissent la nécessité d'un entrepôt de données et sont prêts à en
assumer les frais, la méthode d'entrepôt de données Inmon serait un pari plus sûr.

D'autre part, si les décideurs ne se soucient pas de l'essentiel du processus et ne


recherchent qu'une solution pour améliorer le reporting, alors il est suffin'hésitez pas
à opter pour la méthode d'entrepôt de données Kimball qui s'adapte à notre solution.

4.6.2 Entreposage des données

Il s'agit d'une table de faits qui inclut les identifiants des dimensions ainsi que les mesures.
Dans notre solution, nous proposons : Fact-Sales .
Tables de dimensions :Dim-CampanyPartner ,Dim-Dilevry , Dim-Date , Dim-
Item ,Dim-SalesOrder et Dim-Warehousing.
Voici notre schéma en étoile, dont il résume tout :

41
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.18 : Entrepôt de données

Le fait et les dimensions de la table seront détaillés dans la section suivante.

4.7 Alimentation de DataWarehouse

Une table de faits fonctionne avec des tables de dimensions. Une table de faits
contient les données à analyser et une table de dimension stocke des données
sur la manière dont les données de la table de faits peuvent être analysées.
Ainsi, la table de faits se compose de deux types de colonnes. La colonne des
clés étrangères permet des jointures avec des tables de dimension et les
colonnes des mesures contiennent les données en cours d'analyse. Ci-dessous,
nous présentons les étapes d'alimentation pour chaque dimension.

42
CHAPITRE 4. PRÉPARATION DES DONNÉES

dataflowoutput est une dimension dans le Data Warehouse. Pour les faits l'entrée dataflow est
issue du fichier excel et des dimensions précédentes. La sortie du flux de données est une
dimension dans l'entrepôt de données.
• Dim-CampanyPartenaire
1/Création de flux de données

Figure 4.19 : Dimension partenaire Campany avec Alteryx

2/ Cartographie

Figure 4.20 : Dimension Partenaire de l'entreprise

3/Exécution

43
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.21 : Dimension Partenaire de l'entreprise

4/Vérification dans SQL Server Management Studio

Figure 4.22 : Dimension Partenaire de l'entreprise

• Dim-Dilevry
1/Création de flux de données

Figure 4.23 : Cotation Dilevry avec Alteryx

44
CHAPITRE 4. PRÉPARATION DES DONNÉES

2/ Cartographie

Figure 4.24 : Mappage de la dimension de Dilevry

3/Exécution

Figure 4.25 : Exécution de la dimension de livraison

4/Vérification dans SQL Server Management Studio

45
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.26 : Cote de Dilevry

• Dim-Date
1/Création de flux de données

Figure 4.27 : Dimension Date avec Alteryx

2/ Cartographie

46
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.28 : Dimension Date

3/Exécution

Figure 4.29 : Dimension Date

4/Vérification dans SQL Server Management Studio

47
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.30 : Dimension Date

• Dim-Item
1/Création de flux de données

Figure 4.31 : Dimension de l'article

2/ Cartographie

48
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.32 : Dimension de l'article

3/Exécution

Figure 4.33 : Dimension de l'article

4/Vérification dans SQL Server Management Studio

49
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.34 : Dimension de l'article

• Dim-SalesOrder
1/Création de flux de données

Figure 4.35 : Dimension Commande client

2/ Cartographie

50
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.36 : Dimension Commande client

3/Exécution

Figure 4.37 : Dimension Commande client

4/Vérification dans SQL Server Management Studio

51
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.38 : Dimension Commande client

• Dim-Entreposage
1/Création de flux de données

Figure 4.39 : Dimension Date

2/ Cartographie

52
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.40 : Dimension Date

3/Exécution

Figure 4.41 : Dimension Date

4/Vérification dans SQL Server Management Studio

53
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.42 : Dimension Date

• Fact-Ventes
1/Création de flux de données

Figure 4.43 : Données sur les ventes

54
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.44 : Création de faits de vente

2/ Cartographie

Figure 4.45 : Données sur les ventes

3/Exécution

55
CHAPITRE 4. PRÉPARATION DES DONNÉES

Figure 4.46 : Données sur les ventes

L'entrepôt de données est maintenant rempli par les identifiants de toutes les dimensions pour
aligner les données déjà présentes dans la dimension précédente.

Conclusion

Ce chapitre nous a permis de décrire les techniques appliquées pour la préparation


nécessaire aux données prêtes pour l'étape suivante. Une description du travail
élaboré dans la phase de modélisation est faite dans le chapitre suivant.

56
CHAPITRE 5
LA MODÉLISATION

57
CHAPITRE 5. MODÉLISATION

Introduction

Dans ce chapitre, nous allons passer au processus de modélisation de nos données


internes de ventes et les affiner pour produire un modèle clair capable de fournir les
informations nécessaires à la prévision des ventes.

5.1 Choix des techniques

Dans le monde d'aujourd'hui axé sur la technologie de l'intelligence artificielle, de l'apprentissage


automatique et de l'apprentissage en profondeur, la prévision des prix est devenue extrêmement
populaire. Cela est dû à la disponibilité de nombreuses données et à l'analyse systématique de ces
données par diffalgorithmes érents. Comme nous le savons, les marchés boursiers ont toujours
été un mode d'investissement très important pour les entreprises et aujourd'hui, en raison de
l'intelligence artificielle et de ses différents algorithmes sont devenus beaucoup plus faciles, moins
chronophages et plus fiables.
Maintenant, nous allons présenter les techniques utilisées lors de notre solution.

5.1.1 Apprentissage automatique

L'apprentissage automatique (ML) est une application de l'intelligence artificielle (IA) qui permet aux

systèmes d'apprendre et de s'améliorer à partir de l'expérience sans être explicitement programmés.

L'apprentissage automatique se concentre sur le développement de programmes informatiques capables

d'accéder aux données et de les utiliser pour apprendre par eux-mêmes.

Le ML s'est avéré précieux car il peut résoudre des problèmes à une vitesse et à une échelle qui
ne peuvent pas être reproduites par l'esprit humain seul. Avec des quantités massives de
capacité de calcul derrière une seule tâche ou plusieurs tâches spécifiques, les machines
peuvent être formées pour identifier les modèles et les relations entre les données d'entrée et
automatiser les processus de routine.[5]

5.1.2 Apprentissage en profondeur

Deep Learning (DL) est une fonction d'intelligence artificielle qui imite le fonctionnement du cerveau

humain dans le traitement des données et la création de modèles à utiliser dans la prise de décision.

L'apprentissage en profondeur est un sous-ensemble de l'apprentissage automatique par intelligence

artificielle (IA) qui dispose de réseaux capables d'apprendre sans supervision à partir de données non

structurées ou non étiquetées. Également connu sous le nom d'apprentissage neuronal profond ou réseau

de neurones profond.[6]

58
CHAPITRE 5. MODÉLISATION

5.2 Choix du modèle

Une fois que nous en avons terminé avec le processus de préparation des données, nous sommes
prêts à modéliser nos données en tant que régression ou classification basée sur une tâche ou une
étiquette cible. Dans nos cas, nous devons prédire la valeur des ventes, il s'agit donc d'une tâche de
régression. Dans cette étape, nous étudions les algorithmes d'apprentissage automatique,
l'apprentissage en profondeur dans la prédiction des ventes et choisissons celui qui correspond à
nos données. Notre choix s'appuie sur la régression linéaire, la régression forestière aléatoire,
xgboost et LSTM pour prédire les ventes. Nous allons construire un modèle pour tenter de prédire
les ventes.

5.2.1 Régression linéaire

La régression linéaire est un algorithme d'apprentissage automatique supervisé qui trouve


la meilleure relation d'ajustement linéaire sur l'ensemble de données donné, entre les
variables indépendantes et dépendantes. . Il s'agit d'une approche linéaire pour modéliser
la relation entre une réponse scalaire et une ou plusieurs variables explicatives. L'analyse
de régression linéaire est utilisée pour prédire la valeur d'une variable en fonction de la
valeur d'une autre variable. La variable que vous voulez prédire s'appelle la variable
dépendante. La variable que vous utilisez pour prédire la valeur de l'autre variable est
appelée la variable indépendante.

Figure 5.1 : Architecture de la régression linéaire

59
CHAPITRE 5. MODÉLISATION

5.2.2 Régression forestière aléatoire

Random Forest Regression est un algorithme d'apprentissage supervisé qui utilise la méthode
d'apprentissage d'ensemble pour la régression. La méthode d'apprentissage d'ensemble est
une technique qui combine les prédictions de plusieurs algorithmes d'apprentissage
automatique pour faire une prédiction plus précise qu'un modèle unique. L'algorithme
d'amorçage Random Forest combine des méthodes d'apprentissage d'ensemble avec le cadre
d'arbre de décision pour créer plusieurs arbres de décision tirés au hasard à partir des
données, en faisant la moyenne des résultats pour produire un nouveau résultat qui conduit
souvent à des prédictions/classifications solides.[7]

Figure 5.2 : Architecture de la régression de forêt aléatoire

5.2.3 XGBoost

Le gradient boosting est un algorithme d'apprentissage supervisé, qui tente de prédire avec
précision une variable cible en combinant les estimations d'un ensemble de modèles plus
simples et plus faibles. Il fournit une amplification d'arbre parallèle et est la principale
bibliothèque d'apprentissage automatique pour les problèmes de régression, de classification
et de classement. Il est essentiel pour comprendre XGBoost de comprendre d'abord les
concepts et les algorithmes d'apprentissage automatique sur lesquels XGBoost s'appuie :
apprentissage automatique supervisé, arbres de décision, apprentissage d'ensemble et
amplification de gradient.[8]

60
CHAPITRE 5. MODÉLISATION

Figure 5.3 : Architecture de XGBoost

5.2.4 Mémoire à long court terme

Avec les récentes percées survenues dans la science des données, on constate que les
réseaux de mémoire à court terme, appelés LSTM, sont un type particulier de la famille
des réseaux de neurones récursifs (RNN) de la catégorie Deep Learning. Le RNN est
une généralisation du réseau de neurones à anticipation, qui possède une mémoire
interne, où la sortie de l'étape précédente est envoyée en entrée à l'étape en cours.
Dans d'autres réseaux de neurones traditionnels, toutes les entrées et sorties sont
indépendantes les unes des autres. Mais dans notre cas, toutes les entrées doivent
être liées les unes aux autres. C'est ainsi que RNN a résolu ce problème en utilisant
une couche cachée pour produire la sortie et réduire la complexité des paramètres. .
La caractéristique principale et la plus importante de RNN est l'état caché, qui
mémorise certaines informations sur une séquence. La figure ci-dessous explique
l'architecture de RNN.

61
CHAPITRE 5. MODÉLISATION

Figure 5.4 : Architecture RNN

L'algorithme RNN utilise une seule fonction d'activation de la tangente hyperbolique (tanh)
pour toutes les entrées de données, elle est exprimée par l'équation .

eX−e−X
tanh(X) = (5.1)
eX+e−X
RNN standard suffer des problèmes de gradient qui disparaissent et explosent. La
mémoire à long court terme (LSTM) résout ces problèmes en introduisant de nouvelles
portes, telles que les portes de mise à jour, les portes oubliées ou les portes de
réinitialisation et les sorties (porte de sortie). LSTM est une version modifiée des réseaux
de neurones récurrents, capable d'apprendre les dépendances à long terme, c'est-à-dire la
facilité de mémorisation des données passées en mémoire. La dépendance à long terme
dans RNN est résolue en augmentant le nombre de couches répétitives dans LSTM, il
utilise diffactivation de fonctions érentes pour calculer l'état caché. La figure présente
l'architecture de l'algorithme LSTM. Les fonctions d'activation dans LSTM sont au nombre
de cinq, tandis que RNN n'a qu'une seule fonction Activation.

62
CHAPITRE 5. MODÉLISATION

Figure 5.5 : Architecture de l'algorithme LSTM

5.3 Modélisation

Comme mentionné dans les objectifs commerciaux, nous devons construire un modèle
capable de prédire les ventes, la première chose dont nous aurons besoin, ce sont des
données. Et puisque nous essayons de prédire les ventes, nous aurons besoin de données.
Les données à utiliser dans notre modélisation sont le résultat de la phase précédente.
Cette étape consiste à diviser les données en 2/3 pour la phase d'apprentissage (train) et
1/3 pour la phase de test, puis on applique les algorithmes de ML et DL, enfin on va
calculer les performances de chaque modèle. Ces étapes sont résumées dans la figure.

Figure 5.6 : Étapes de modélisation

63
CHAPITRE 5. MODÉLISATION

Maintenant, comme nous le savons, l'apprentissage supervisé nécessite des variables indépendantes

et dépendantes XY pour que l'algorithme apprenne / s'entraîne, nous allons donc d'abord convertir nos

données dans un tel format. Maintenant que nous avons des données avec lesquelles travailler, importons-

les à l'aide de pandas afin de pouvoir les visualiser. Nous supprimons certaines des colonnes de nos

données afin qu'il ne nous reste plus qu'un index de date et le montant pour simplifier la prédiction de la

série chronologique.

Plus précisément, nous allons obtenir le montant des ventes du 1er octobre 2013
au 18 mai 2021.
Traçons, nous avons ce chiffre.

Figure 5.7 : Montant total des ventes

Maintenant, nous avons divisé nos données de ventes historiques pour avoir un ensemble de données qui reflète l'ensemble

de train et un ensemble de données qui reflète l'ensemble de test.

64
CHAPITRE 5. MODÉLISATION

Figure 5.8 : Répartition des données

Nous allons utiliser l'ensemble d'apprentissage pour former un modèle afin d'essayer de prédire
les valeurs sur l'ensemble de test.
Ensuite, nous construisons nos modèles.

Modèle 1 : Régression linéaire

Commençons par un modèle de base. L'un des modèles de base les plus courants pour la
régression est la régression linéaire
Modèle 2 : Régression forestière aléatoire
Nous construisons le deuxième modèle Random Forest Regression.
Modèle 3 : XGBoost
Ensuite, nous construisons le XGBoost à nos
données. Modèle 4 : LSTM
Nous utilisons un réseau neuronal récurrent pour modéliser nos données séquentielles.

Après avoir construit un modèle, nous compilons et adaptons un modèle.

Enfin, nous calculons les performances avec des protocoles expérimentaux. Son
résultat sera utilisé dans le chapitre suivant.

Conclusion

Dans ce troisième chapitre, nous avons analysé et affiné les données fournies à l'aide de
méthodes et d'algorithmes supervisés et non supervisés afin de décrire, d'expliquer et de
prédire les ventes futures qui pourraient aider Zum-it à prévenir davantage.

65
CHAPITRE 6
ÉVALUATION

66
CHAPITRE 6. ÉVALUATION

Introduction

À ce stade, nous avons terminé la majeure partie de votre projet d'exploration de données. Nous
avons également déterminé, dans la phase de modélisation, que les modèles construits sont
techniquement corrects et effeffectif, selon les critères de réussite de l'exploration de données que
vous avez définis précédemment. Nous allons maintenant passer à une évaluation de la phase de
modélisation.

6.1 Les protocoles expérimentaux utilisés

Dans notre solution, nous avons utilisé les protocoles expérimentaux de


régression : RMSE , MAE , EV , MSE et MAPE.
Erreur quadratique moyenne
Il s'agit de la racine carrée de l'erreur moyenne. L'erreur quadratique moyenne est indiquée sur la
base de l'équation.


1 ( )2
RMS E= Σnje=1yr − yp (6.1)
n

Erreur absolue moyenne (MAE)


Il prend la moyenne du paramètre absolu. L'équation est utilisée pour calculer
ce paramètre. MAE calcule le di absolu moyenffréférence entre yi et xi qui sont
les coordonnées du point i.

1∑ n
∣∣∣y−yp ∣∣∣
MAE= ( ) r (6.2)
n je=1

Variance expliquée (EV) [0,1]


Le score de variance expliquée est utilisé pour mesurer l'écart entre un modèle et
les données réelles.

(yr−yp)
VE=1 −∑ (6.3)
( yr)

Erreur quadratique moyenne (MSE)


L'erreur quadratique moyenne mesure la moyenne des carrés des erreurs, c'est-à-dire

67
CHAPITRE 6. ÉVALUATION

le carré moyen diffdifférence entre les valeurs estimées et la valeur


réelle.
1∑ n
MS E= ( ) (yr− yp)2 (6.4)
n je=1

Erreur absolue moyenne en pourcentage (MAPE)


L'erreur absolue moyenne en pourcentage est une mesure de la précision de la prédiction d'une
méthode de prévision dans les statistiques. Il exprime généralement la précision sous la forme d'un
rapport défini par la formule :


100%∑ n∣∣y−r yp∣∣∣∣
CARTE= ( ) ∣∣∣ (6.5)
n t=1
yr

6.2 Comparer les modèles

L'étape essentielle de tout modèle d'apprentissage automatique ou d'apprentissage en


profondeur consiste à évaluer la précision du modèle. L'erreur quadratique moyenne, l'erreur
absolue moyenne, la variance expliquée, l'erreur quadratique moyenne et l'erreur absolue
moyenne en pourcentage sont utilisées pour évaluer les performances du modèle dans
l'analyse de régression pour la prévision des ventes.

68
CHAPITRE 6. ÉVALUATION

Régression linéaire- Aléatoire pour- Xgboost LSTM


sion est Régresseur
RMSE 3073 1532 2229 1915

MAE 1734 750 1309 1128

VE 0,08 0,74 0,15 0,19

MSE 9445436 2349022 4969150 3669748

CARTE 84 140 193 216

Tableau 6.1 : Résultat des quatre algorithmes utilisés

Le tableau contient le résultat de l'évaluation de quatre algorithmes utilisés


(régression linéaire, régression de forêt aléatoire, XGBoost et LSTM). Selon ce
tableau, nous pouvons remarquer que notre modèle de régression forestière
aléatoire est le plus performant en termes de RMSE, MAE, EV, MSE et MAPE. Il est
clair que la régression forestière aléatoire MSE, MAE et RMSE sont plus petites que
la régression linéaire, XGBoost et LSTM. En revanche, l'algorithme d'apprentissage
en profondeur LSTM donne moins de résultats que l'apprentissage automatique.
En termes de comparaison entre la régression linéaire, XG-Boost et LSTM, nous
pouvons clairement remarquer que LSTM est le meilleur selon RMSE, MAE, EV, MSE
et MAPE.
Notre choix s'est porté sur Random Forest Regression car il donne les meilleurs
résultats en termes de RMSE, MAE, EV, MSE et aussi l'entreprise est la plus
intéressée par ce modèleffiefficace en termes de MAE.
En superposant la prédiction et les données de test dans Random Forest
Regression, nous avons ce chiffre qui appuie votre choix.

69
CHAPITRE 6. ÉVALUATION

Figure 6.1 : Architecture de XGBoost

Conclusion

Ce chapitre nous a permis de décrire les techniques appliquées pour la préparation


nécessaire aux données prêtes pour l'étape suivante. Une description du travail
élaboré dans la phase de modélisation est faite dans le chapitre suivant.

70
CHAPITRE 7
DÉPLOIEMENT

71
CHAPITRE 7. DÉPLOIEMENT

Introduction

Ce chapitre est consacré au déploiement des tableaux de bord et à ses


interprétations pour fournir une visualisation claire de toutes les informations
nécessaires et ainsi permettre de prendre les bonnes décisions.

7.1 Tableau de bord

Les tableaux de bord sont un mécanisme de reporting qui regroupe et affiche des mesures et
des indicateurs clés afin qu'ils puissent être examinés en un coup d'œil par tous les publics
possibles. Il sert à afficher les informations les plus importantes et les plus utiles dans la
solution.
• Nous avons choisi d'adapter le tableau de bord sur une seule page. Il fournit la discipline
nécessaire pour se concentrer uniquement sur les informations les plus critiques et permet au public
de voir les résultats "en un coup d'œil".
• Nous avons respecté la palette de couleurs de l'entreprise pour les visualisations de données.
Nous avons choisi la couleur du logo. La couleur dominante est le bleu qui est utilisé pour faire
de la couleur d'accent pour attirer l'attention sur le titre des tableaux de bord et tous les
graphiques.

7.2 Tableau de bord des ventes

À l'aide du graphique en anneau, le montant par partenaire commercial s'affiche, contenant


l'identifiant du partenaire de l'entreprise ainsi que le montant, comme indiqué sur la figure.

Figure 7.1 : Montant par partenaire commercial

72
CHAPITRE 7. DÉPLOIEMENT

Le type de matrice de remise par unité de prix de vente est affiché à l'aide du graphique en
anneau qui contient la remise par prix de vente, comme indiqué sur la figure.

Figure 7.2 : Type de matrice de remise par unité de prix de vente

Le tableau des noms de quantité livrée par mois est illustré dans la figure. Il s'agit
d'un treemap qui compare la date d'origine de la date promise et la date de sortie de
la quantité commandée.

Figure 7.3 : Quantité livrée par mois

À l'aide du graphique en aires, le prix de revient détenu par la société en devise


locale et le montant brut en devise locale par mois sont affichés à l'aide du graphique
en aires qui contient le différence de coût comme le montre la figure.

73
CHAPITRE 7. DÉPLOIEMENT

Figure 7.4 : Prix de revient détenu par l'entreprise en monnaie locale et montant brut en
monnaie locale par mois

Le tableau Quantité commandée par article est le tableau de la quantité commandée de l'article. Il

donne le top 10 des articles commandés les plus élevés.

Figure 7.5 : Quantité commandée par article

Dans ce tableau de bord, le revenu total, le total de la quantité commandée, le montant par
partenaire commercial à l'aide du graphique en anneau, le type de matrice de remise par unité de
prix de vente est affiché à l'aide du graphique en anneau, la quantité livrée par mois à l'aide d'une
arborescence, le type de matrice de remise par ventes Unité de prix à l'aide d'un graphique en aires
et Quantité commandée par article à l'aide d'un graphique à barres groupées . Sur l'en-tête,
l'utilisation de cartes est faite pour sélectionner les attributs qui correspondent aux objectifs
d'exploration de données.

74
CHAPITRE 7. DÉPLOIEMENT

Figure 7.6 : Tableau de bord des ventes

7.3 Tableau de bord de prévision des ventes

Après la phase d'évaluation des modèles de machine learning et de deep learning, nous
choisissons un modèle Random Forest Regression. Nous créons un tableau de bord de
prédiction qui implémente un modèle d'apprentissage automatique.
À l'aide du graphique en aires, le montant et la prédiction sont affichés à l'aide du graphique en
aires qui contient le différence entre la valeur prévue et la dernière valeur de quantité au fil du
temps, comme indiqué sur la figure.

75
CHAPITRE 7. DÉPLOIEMENT

Figure 7.7 : Montant et prédiction

En utilisant un autre graphique en aires, la prédiction est affichée à l'aide du graphique en aires
qui indique la prédiction dans le temps, comme indiqué sur la figure.

Figure 7.8 : Prédiction

À l'aide du tableau, Montant 1 mois, Montant 2 mois et Montant 3 mois sont


affichés dont la prédiction est la moyenne des deux derniers mois pour prédire
le troisième comme indiqué sur la figure.

76
CHAPITRE 7. DÉPLOIEMENT

Figure 7.9 : Tableau de prédiction

Dans ce tableau de bord, nous commençons par la carte de Date, Montant par
prévisions, prévisions, Montant en un mois Montant en deux mois Montant en trois
mois .Nous utilisons également la carte de date.

Figure 7.10 : Tableau de bord de prévision des ventes

77
CHAPITRE 7. DÉPLOIEMENT

Conclusion

Ce dernier chapitre prévoyait le déploiement du différents tableaux de bord en


plus de l'interprétation de chacun des graphiques pour faire une visualisation
claire de l'information nécessaire.

78
Conclusion générale
Cette phase de notre projet BI comprenait une description du contexte de notre
projet, ainsi que de notre méthodologie de travail choisie. En plus de cela, nous avons
également défini l'identification de la source de données afin d'avoir des idées claires
sur le travail qui doit être fait dans les étapes précédentes et la conception où nous
avons détaillé le schéma d'architecture du système et décrit notre environnement
logiciel qui aidera nous pour atteindre nos objectifs à la fin. Ensuite, nous avons
montré la mise en œuvre de notre travail et fourni toutes les analyses de données
nécessaires pour terminer avec la phase de dshbording. Il était également
indispensable de doter le Zum-it d'un tableau de bord pour optimiser la répartition des
tâches, optimiser l'allocation des ressources et la durée des projets.

Le projet a été techniquement bénéfique car nous avons pu maîtriser toute la


chaîne de valeur d'un projet BI à l'aide d'un outil open-source. L'intelligence
économique est un domaine très vaste et très prometteur avec plusieurs champs
d'application, et le fait d'être ingénieur spécialiste dans ce domaine c'est d'avoir le
sens de l'analyse, de la conception et de l'organisation, et c'est aussi d'avoir le sens
de l'engagement la communauté et d'assumer toutes les responsabilités qui lui
sont confiées compte tenu de l'importance cruciale de cette discipline pour la
stratégie de l'organisation.
Enfin, nous espérons avoir fait un travail sérieux et décent tout en faisant
bonne impression.

79
PERSPECTIVES
Notre solution a été faite sur ses données, qui représentent une partie d'INFOR LN.
Aussi pour les prochaines fois, nous cherchons à améliorer notre solution.

- Optimise l'entrepôt de données par le modèle de diagramme en flocon de neige, il s'applique


à la dimension de la commande client pour réduire le temps d'exécution.

- Afin de maximiser la visualisation du tableau de bord des ventes, nous pouvons diviser
plusieurs pages du tableau de bord.

- Amélioration des données non stationnaires pour les modèles construits en machine
learning à hautes performances.

- Après avoir obtenu les différents graphiques souhaités affichés sur notre tableau de
bord, nous devrons développer une interface web pour l'administrateur afin de faciliter le
contrôle des paramètres d'entrée.

80
BIBLIOGRAPHIE

[1]©Microsoft. Microsoft.https://docs.microsoft.com/en-us/ sql/


ssms/sql-server-management-studio-ssms?view= sql-server-
ver16,2022.

[2] Contributeurs Wikipédia. Infos.https://en.wikipedia.org/w/


index.php?title=Infor&oldid=1092566897,2022.

[3] Logiciel Astera. Etl.https://www.astera.com/type/blog/etl-what-


it-means-and-why-is-it-important/,2022.

[4] ARAK. L'intelligence d'entreprise. https://


arakmu.ac.ir/statistics/en/news/14042/ what-
is-business-intelligence-,2022.

[5] Expert Ai. Apprentissage automatique.https://www.expert.ai/blog/


machine-learning-definition/,2022.

[6] Objectif algorithmique . ing. Profond apprendre-

https://www.algotive.ai/blog/
tout-ce-qu'il-faut-savoir-sur-l'apprentissage-profond-de-la-
technologie-qui-imite-le-cerveau-humain,2022.

[7] Ashwin Raj. Régression forestière aléatoire. https://


versdatascience.com/a-quick-and-dirty-guide/
- to-random-forest-regression-52ca0af157f8,2022.

https://docs.aws.
[8] Amazon Web Services. Xgboost fonctionne.
amazon.com/sagemaker/latest/dg/xgboost-HowItWorks,
2022.

81

You might also like