Professional Documents
Culture Documents
com
1
2
3
20 juin 2022
Abstrait
Ce rapport propose une synthèse de notre travail à Zum-it dans le cadre de mon
stage de fin d'études. L'objectif principal de ce travail est d'utiliser des outils de
Business Intelligence et des approches de Machine Learning et Deep Learning pour
automatiser les tableaux de bord de ventes et de prévisions. La solution que nous
mettrons en place couvrira parfaitement le besoin de l'équipe Dashboard et BI au sein
de la société Zum-it, en traitant les données et en introduisant les algorithmes
appropriés pour prédire les ventes.
De plus, notre proposition de dashbording est composée des phases suivantes : la phase
de Business Intelligence consiste à traiter les données à l'aide d'un processus ETL, la
visualisation des données extraites dans un Dashboard de vente, prédire les ventes en
introduisant les algorithmes de Machine Learning et Deep Learning afin pour
sélectionner le plus effimodèle scientifique. La dernière phase est la visualisation de la
prédiction dans un tableau de bord de prédiction des ventes. Dans ce rapport, nous
avons montré que la régression forestière aléatoire est le meilleur algorithme.
1
CONTENU
1 CONTEXTE GENERAL 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 4
Présentation de l'entreprise . . . . . . . . . . . . . . . . . . . 4
1.2 Méthodologie de travail . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Comparaison . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Méthodologie de travail adoptée . . . . . . . . . . . . 6
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2
CONTENU
5 Modélisation 57
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Choix des 58
techniques . . . . . . . . . . . . . . . . . . . . 58
5.1.1 Apprentissage automatique . . . . . . . . . . . . . . . . . 58
5.1.2 Apprentissage en profondeur . . . . . . . . . . . . . . . . . . . 58
5.2 Choix du modèle . . . . . . . . . . . . . . . . . . . . . 59
5.2.1 Régression linéaire . . . . . . . . . . . . . . . . . 59
5.2.2 Régression forestière aléatoire . . . . . . . . . . . . . 60
5.2.3 XGBoost . . . . . . . . . . . . . . . . . . . . . . 60
5.2.4 Mémoire à long court terme . . . . . . . . . . . . . 61
5.3 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3
CONTENU
6 Évaluation 66
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Les 67
protocoles expérimentaux utilisés . . . . . . . . . . . . . . 67
6.2 Comparer les modèles . . . . . . . . . . . . . . . . . . . . . . 68
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7 Déploiement 71
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Tableau de 72
bord . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2 Tableau de bord des ventes . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Tableau de bord de prévision des ventes . . . . . . . . . . . . . . . . . 75
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Bibliographie 81
4
LISTE DES FIGURES
5
LISTE DES FIGURES
6
LISTE DES FIGURES
7
LISTE DES TABLEAUX
8
LISTE DES TABLEAUX
IA Intelligence artificielle
BI L'intelligence d'entreprise
DL L'apprentissage en profondeur
DW Entrepôt de données
99
9
Introduction générale
Dans ce monde axé sur les données, l'analyse des données est devenue essentielle dans
les processus décisionnels du secteur des services bancaires et financiers. La banque
d'investissement et d'autres activités dans lesquelles des informations en temps réel sont
utilisées, le volume, ainsi que la vitesse des données, sont devenus des facteurs critiques.
Aujourd'hui, les pratiques d'analyse de données ont simplifié la surveillance et l'évaluation
de grandes quantités de données clients, y compris les informations personnelles et de
sécurité par les banques et autres organisations financières.
Il existe plusieurs cas d'utilisation dans lesquels Big Data Analytics a contribué de manière
significative à assurer l'effutilisation efficace des données. Ces données ouvrent de nouvelles
opportunités passionnantes pour le service client qui peuvent aider à défendre des champs de
bataille tels que les paiements et ouvrir de nouvelles opportunités de services et de revenus.
La Business Intelligence BI est nécessaire pour être compétitif sur le marché actuel axé sur
les données. BI peut vous fournir des rapports significatifs et des données exploitables qui
peuvent maximiser vos revenus, améliorer effiefficacité et offrez de meilleurs résultats à
vos clients, tout en ayant un impact positif sur vos résultats. L'identification et la
priorisation des opportunités clés sont nécessaires pour maximiser vos objectifs financiers.
L'objectif d'un service de BI réussi est de localiser, collecter, stocker en toute sécurité et agréger
les éléments de données nécessaires dans un emplacement central, généralement le « cloud »
aujourd'hui, puis d'effectuer des analyses pour fournir des rapports rapidement afin de
répondre à l'évolution de la dynamique du marché et aux besoins des clients.
Notre présent rapport de projet de fin d'étude s'articulera ainsi autour de cinq grands
chapitres présentés comme suit :
Un premier chapitre intitulé "Contexte général" contenant une présentation sur le
cadre de réalisation du projet, les objectifs et le problème que l'on veut résoudre
ou améliorer, ainsi que la méthodologie de travail adoptée.
Le deuxième chapitre, intitulé « Compréhension métier », décrit quelques notions
du déroulement de notre projet, les objectifs métiers et techniques ainsi que
l'environnement de travail.
Le troisième chapitre, intitulé « Compréhension des données », sera consacré en première
place à citer les étapes de collecte des données ainsi que les outils nécessaires à cette
étape. Et deuxièmement de faire des explorations afin de mieux comprendre les données
disponibles.
Le quatrième chapitre « Préparation des données » comprend le traitement et explique
1
les méthodes appliquées aux données.
Le cinquième chapitre intitulé "Modélisation", dans lequel nous détaillons l'étape de
modélisation en présentant les composants graphiques du Dashboard.
Le seizième chapitre "Evaluation" que nous avons effectué puis évaluer
les outils choisis.
Enfin le dernier chapitre "déploiement" en présentant les composants
graphiques du Dashboard. Le rapport sera clôturé par une « conclusion » et
une liste de perspectives.
2
CHAPITRE 1
CONTEXTE GENERAL
CHAPITRE 1. CONTEXTE GENERAL
Introduction
Ce premier chapitre est consacré à la présentation de l'étude préliminaire, qui est présentée
dans ce premier chapitre. Nous commencerons par présenter notre organisation d'accueil.
Dans un deuxième temps, nous élaborerons la méthodologie de travail.
ZUM-IT est une société de conseil internationale qui se concentre sur la transformation
numérique des organisations des industries manufacturières en Europe et en Afrique. Nos
consultants sont une équipe croissante de professionnels guidés par des experts
commerciaux et industriels d'Europe et de la MEA. Nous nous concentrons sur le
développement continu de notre équipe afin d'apporter à nos clients la meilleure valeur
possible grâce à l'intégration, au développement et au conseil de logiciels d'entreprise.
Nous prenons soin les uns des autres et de la mission que nous avons.
ZUM-IT est avant tout une équipe car nous pensons que seul le travail d'équipe peut faire la différence.ff
ZUM-IT fournit des conseils aux entreprises internationales dans un large éventail
d'industries manufacturières.
ZUM-IT est spécialisé dans les logiciels d'entreprise d'Infor et les solutions industrielles 4.0
développées en interne pour la réalité augmentée, l'analyse de données, l'apprentissage
automatique et la gestion des performances.
• Conseil et conseil
• Logiciel d'entreprise Infor
• Solutions Industrie 4.0
• BI et analytique
• Solutions d'affaires personnalisées
4
CHAPITRE 1. CONTEXTE GENERAL
1.2.1 Comparaison
âge.
• Organisé autour • Mieux homme- • Ne fait pas
sprints de développer- âge global prendre en charge les changements
5
CHAPITRE 1. CONTEXTE GENERAL
Dans cette partie nous présentons la méthodologie utilisée lors de notre projet, notre choix se
porte sur la méthodologie sur le Cross-Industry Standard Process for Data Mining (CRISP-DM),
c'est encore la seule stratégie qui peut être utilisée avec succès dans toutes les applications de
Data Science aujourd'hui. Il s'agit d'un moyen éprouvé par l'industrie de guider notre
exploration de données efforts.
Le modèle CRISP-DM décrit les étapes impliquées dans la réalisation des activités
de science des données, du besoin métier au déploiement, mais surtout définit un
cadre qui permet des itérations à travers toutes les phases. Dans les applications
du monde réel, la nature itérative permet une amélioration constante via le retour
aux tâches précédentes et la répétition de certaines actions. . La figure 1.2
schématise le diffdifférentes étapes de la méthodologie CRISP.
Conclusion
Au cours de ce premier chapitre, nous avons d'abord présenté l'organisme d'accueil Zum-it
Tunisie. Deuxièmement, nous avons identifié le CRISP-DM utilisé dans notre solution tout
au long de la solution.
6
CHAPITRE 2
COMPRÉHENSION DES AFFAIRES
7
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
Introduction
Après avoir présenté le contexte général de notre projet dans le chapitre précédent, nous
consacrons ce chapitre à établir les objectifs commerciaux que nous nous concentrons à
atteindre en capturant les objectifs du projet. Ensuite, nous présenterons la
compréhension commerciale du projet.
Notre solution est un système d'aide à la décision dont le but premier est de présenter
les informations nécessaires sur les ventes pour une meilleure compréhension de
Zum-it plutôt que d'avoir des rapports par version, ainsi que d'identifier et d'optimiser
les opportunités cachées pour les équipes some-it works allant de développeurs aux
décideurs. notre mission réside dans la mise en place de ce processus décisionnel qui
consiste à collecter, analyser et exploiter des données pour en extraire des
informations utiles en fournissant des indicateurs de suivi. Afin de maximiser
l'utilisation de l'entreprise actuelle, une approche proposée consiste à rendre INFOR
LN plus accessible aux clients et à leurs partenaires commerciaux. En conséquence,
une recherche est commandée avec les objectifs suivants :
"Améliorer la visualisation globale et détaillée des données de
vente" "prédire le service de vente."
L'étude sera provisoirement considérée comme un succès si :
"Les clients passent moins de temps à rechercher des données"
"Capacité à prévoir les ventes"
"L'étude se termine dans les délais et sous le budget"
8
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
Il contient une société financière, une société de logistique ou les deux. Infor LN est une
solution cloud ERP globale pour les grandes et petites organisations de fabrication
complexes, offrapide et économiqueffDéploiement efficace, avec intégration de l'atelier et
de la chaîne d'approvisionnement et outils de gestion des finances, de la qualité, du
service, des commandes et des partenaires commerciaux. Le système ERP s'intègre aux
opérations pour répondre aux besoins uniques de chaque fabricant.
2.2.2 Problématique
9
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
entreprises dans l'intégration des systèmes et la standardisation des données et des processus
de l'entreprise dans l'ensemble de leurs opérations. Malgré les charges que prend INFOR LN de
ces camps génère un certain manque :
Maintenant que l'objectif commercial a été établi, il est temps de le transformer en une réalité
d'exploration de données. La méthode suggérée implique le développement d'un système
automatisé pour collecter, analyser et prédire les données de vente d'INFOR LN. Ce système fait
partie de la solution Global Customer Portal, qui comprend également une partie Web et un
composant d'apprentissage automatique d'intelligence d'affaires. Notre solution est basée sur :
Pour le plan, nous avons fait un diagramme de Gantt qui permet de représenter toutes les tâches
d'un projet.
dix
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
11
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
Au niveau de cette partie, nous mentionnons les différents logiciels utilisés au cours de notre
projet :
Pour la partie BI nous avons utilisé SSMS comme outil de développement.
Alteryx est utilisé pour automatiser les processus de données plus rapidement et effiment.
Il collecte, prépare et fusionne des données qui pourraient autrement prendre du temps ou
être impossibles à combiner à l'aide d'autres outils. Grâce à cela, Alteryx fournit des réponses à
des questions commerciales complexes et peut aider à simplifier ou à automatiser les processus
de données. Cela permet non seulement de gagner beaucoup de temps, mais également
d'éviter les erreurs qui auraient pu se produire si le processus avait été effectué manuellement.
12
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
• Power BI
Pour la partie apprentissage automatique, nous avons utilisé le langage de programmation Python
avec Spyder comme environnement de développement et leurs bibliothèques.
• Microsoft Excel
Il s'agit d'une feuille de calcul développée par Microsoft pour Windows, Mac OS, Android et
iOS. Il comprend des outils graphiques, des tableaux croisés dynamiques et un langage de
programmation macro appelé Visual Basic Application.
• Python
13
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
• Anaconda
Anaconda Enterprise est une plateforme de science des données prête pour l'entreprise,
sécurisée et évolutive qui permet aux équipes de gérer les actifs de science des données, de
collaborer et de déployer des projets de science des données.
• Espion
• Keras : Keras est l'une des principales API de réseau neuronal de haut niveau.
Il est écrit en Python et prend en charge plusieurs moteurs de calcul de
réseaux neuronaux.
• Pandas : Pandas est une bibliothèque qui permet de manipuler facilement des données
14
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
analyser : manipuler des tableaux de données avec des étiquettes variables (colonnes) et
des individus (lignes). Ces tableaux sont appelés DataFrames.
Pour la réduction de rapport nous avons utilisé du Latex.
• Latex
décomposent les structures en couches qui montrent comment des systèmes spécifiques interagissent avec les
15
CHAPITRE 2. COMPRÉHENSION DE L'ENTREPRISE
Processus
• Collectez, nettoyez et consolidez les données, extrayez les données des ventes et adaptez-
les.
• Analyse : identifier des modèles et établir des relations dans un groupe de
données .
• Répartir ou plutôt faciliter l'accessibilité des informations selon les
fonctions et les types d'utilisation.
• Reporting : processus d'accès aux données, de formatage et de livraison à l'intérieur
et à l'extérieur de l'organisation .
Conclusion
Ce chapitre a fourni un aperçu du contexte général de notre projet, nous avons précisé
nos objectifs et les besoins de Zum-it en précisant les objectifs commerciaux. Dans le
chapitre suivant, nous plongerons dans la phase de compréhension des données.
16
CHAPITRE 3
COMPRÉHENSION DES DONNÉES
17
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
Introduction
Dans ce troisième chapitre, nous allons commencer la phase de collecte des données nécessaires à
notre solution puis définir les données pour mieux les comprendre.
La phase de collecte de données est essentielle pour tout projet de Data Science. C'est une phase qui
demande beaucoup de temps. Dans notre cas, nous avons récupéré les données d'INFOR LN
historisées puis ces données ont été enregistrées dans des fichiers au format de données JSON
(JavaScript Object), et pour les traitements nécessaires, nous avons utilisé Python.
Infor Ln a été créée en 2002 par trois fonds d'investissement : Golden Gate Capital
Partners, Summit Partners et Koch Industries. Cet éditeur américain de logiciels
est la première plateforme d'analyse cloud, classée par Gartner dans son BI Magic
Quadrant. Infor se positionne à la fois comme un concurrent des legacy
(BusinessObject, Cognos, MicroStrategy) et du "Modern BI". Immergé dans un
monde de personnalisation de masse avec Infor LN. Plus de 4 500 fabricants font
confiance à LN pour améliorer, accélérer et rationaliser les processus de
fabrication les plus complexes.[2]
18
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
Des outils de collecte de données sont utilisés pour collecter les informations recherchées auprès
des répondants. Les plus utilisés sont les formulaires de vente dans Infor. Ces données sont la
ressource la plus précieuse pour les entreprises et peuvent être utilisées comme base de données
nécessaire pour adapter les outils d'évaluation en fonction des sources d'information et pour
répondre aux besoins choisis par Zum-it.
Les données historiques sont extraites de la base de données des ventes Infor Ln qui
est affichée dans les figures 3.2 et 3.3. On choisit les ventes, puis s'affichent les bons
de commande qui contiennent les données nécessaires. Nous l'extrayons au format
Json.
19
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
INFOR LN enregistre les données sous forme de fichiers d'extension ". JSON". Ces fichiers
représentent 10 fichiers compressés sous la forme ".zip". Ces fichiers sont générés
automatiquement à partir de la base de données de l'INFOR LN. Ces données sont extraites
comme indiqué dans la Figure .
20
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
21
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
Nous avons commencé par expliquer les étapes de collecte de données qui ont conduit au
traitement de nombreuses données historiques des ventes d'INFOR LN. Qui consiste en la
découverte des données dans notre distribution ainsi que leur exploration.
La description des données est une étape importante dans le processus d'analyse.
Cette section vise à offdescription des techniques majeures des données afin de
produire une analyse préliminaire des informations recueillies lors d'une enquête
22
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
très.
Les types de valeur de ces sources de données sont symboliques, il s'agit de dates et
d'heures et de numéros de commandes clients historiques. Les nombres variables dans les
sources de données incluent la quantité commandée pour chaque article, le montant
dépensé pour une vente et les informations sur la livraison et les promotions sur un article
de la base de données des ventes.fférentes commandes de données sont peu fréquentes
car les attributs de ces sources sont très différentsfférent. Les seules variables qui se
chevauchent sont les "clés", telles que les ID de partenaire commercial et les codes
d'article. Par conséquent, les données nécessitent une préparation supplémentaire afin
que vous puissiez recoder ces champs clés pour la fusion. Les attributs de ces objets avec
leurs raccourcis et leurs descriptions sont :
• "orno" > Commande client : le nom de la commande client.
• "pono"-> Ligne : La ligne de commande client.
• "sqnb" -> Sequence Number : Le numéro de séquence de la commande client.
• "ofbp" > Vendu au partenaire commercial : ID du partenaire commercial .
• "dltp"-> Delivery Type :Type de distribution.
• "dltp-kw"-> Type de diffusion (mot-clé) :Type de mot-clé dilevery.
• "item" -> Item : La référence de l'item .
• "dorg" -> Origine de la remise : la remise d'origine.
• "prix"->prix : le prix de l'article.
• "porg"->Prix Origine : Le prix d'origine.
• "porgun"->Sales Price Unit : Le prix de vente unitaire.
• "porgkw"-> Mot-clé d'origine du prix :Le prix du mot-clé d'origine.
• "citt"->Item Codesystem :Le système de code d'article.
• "citm"->Article client : L'article client .
• "qidl"->Quantité livrée : la quantité livrée.
• "stsi"->Expédier au partenaire commercial :Le partenaire d'expédition au partenaire commercial.
23
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
24
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
découvert. En règle générale, les données des fichiers JSON doivent être traitées en premier dans la phase
de préparation des données pour produire des données qui peuvent être explorées de manière
significative. Cette dérogation au CRISP-DM souligne le fait que le processus peut et doit être personnalisé
en fonction de vos besoins particuliers en matière d'exploration de données. L'exploration est également
utile pour rechercher des erreurs dans les données. Alors que la plupart des sources de données sont
générées automatiquement, les informations dans la base de données INFOR LN ont été saisies en
choisissant dans la liste déroulante. Ainsi, obtenir des erreurs dans les données est minime. Nous avons un
grand nombre de données, c'est pourquoi nous choisissons d'en sélectionner une de chaque type pour
remonter la gamme.
25
CHAPITRE 3. COMPRÉHENSION DES DONNÉES
Conclusion
Dans ce chapitre, nous avons commencé par décrire la procédure de collecte de nos
données historiques. Ensuite, nous avons fait la description des données, par la suite nous
les avons explorées et à la fin nous avons vérifié leur qualité. La partie de la préparation
des données est abordée dans le chapitre suivant.
26
CHAPITRE 4
PRÉPARATION DES DONNÉES
27
CHAPITRE 4. PRÉPARATION DES DONNÉES
Introduction
La troisième étape Préparation des données, qui commence par le prétraitement. Cette partie
est composée de trois sous-sections. Dans la première sous-section, nous présentons la fusion
de données. La seconde détaille la partie BI du processus ETL et ces étapes. La dernière sous-
section contient l'apprentissage automatique.
Dans cette partie nous présenterons les techniques utilisées lors de notre projet.
• L'intelligence d'entreprise
La Business Intelligence est un ensemble de processus, d'architectures et de technologies qui
convertissent les données brutes en informations significatives qui conduisent à des actions
commerciales rentables. Il s'agit d'une suite de logiciels et de services permettant de transformer les
données en informations et connaissances exploitables qui ont un impact direct sur les décisions
commerciales stratégiques, tactiques et opérationnelles de l'organisation. La Business Intelligence
prend en charge la prise de décision basée sur des faits en utilisant des données historiques plutôt
que des hypothèses et des sentiments instinctifs.[3]
Les outils de BI effectuent des analyses de données et créent des rapports, des résumés, des tableaux de
bord, des cartes, des diagrammes et des graphiques pour fournir aux utilisateurs des informations
28
CHAPITRE 4. PRÉPARATION DES DONNÉES
4.2 Prétraitement
L'étude de fichiers .JSON séparés nous a conduit à constater le difficultures auxquelles sont
confrontées les équipes de Zum-it, d'où le choix du code Python. Ce dernier permet
d'effacer les raccourcis. Pour implémenter cette solution, nous avons opté pour l'approche
suivante, nous plaçons les attributs des fichiers .JSON dans une trame de données, puis les
transformons en fichier Excel. Cette solution a transformé les fichiers .JSON compressés en
un seul fichier .XLSX, comme illustré, par exemple, dans la figure suivante. Ce traitement
sera effectué sur tous les fichiers compressés.
Après avoir répété ce travail avec tous les fichiers, nous avons changé les abréviations
en noms significatifs. Maintenant, nous avons changé les raccourcis dans tous nos jeux de
données. Cette figure montre un exemple qui est une capture de fichier reçu après le
prétraitement. Nous présentons le résultat de la phase de prétraitement mentionnée dans
notre solution.
29
CHAPITRE 4. PRÉPARATION DES DONNÉES
La troisième étape est la préparation des données qui implique le processus ETL ou ELT qui
transforme les éléments de données en quelque chose d'utile par le processus. L'ETL est
l'un des processus importants requis par la Business Intelligence. Un ETL extrait les
données pertinentes et les charge dans l'ODS. de l'entrepôt de données.
30
CHAPITRE 4. PRÉPARATION DES DONNÉES
4.3.1 ETL
ETL signifie "Extraire, Transformer et Charger". Le processus ETL comprend 3 étapes qui
permettent l'intégration des données de la source à la destination : extraction des
données, transformation des données et chargement des données.
Extraction, dans laquelle les données brutes sont extraites d'une source ou de plusieurs sources.
Les données peuvent provenir d'applications transactionnelles, telles que les données de planification
des ressources d'entreprise (ERP) . Pour créer un entrepôt de données, l'extraction implique
généralement de combiner les données de ces différentes sources en un seul ensemble de données,
puis de valider les données avec des données invalides signalées ou supprimées. Les données
extraites peuvent être de plusieurs formats, tels que les bases de données relationnelles, XML, XLSX
et autres.
Transformation, dans laquelle les données sont mises à jour pour correspondre aux
besoins d'une organisation et aux exigences de sa solution de stockage de données. La
transformation peut impliquer la normalisation (conversion de tous les types de données au
même format), le nettoyage (résolution des incohérences et des inexactitudes), le mappage
(combinaison d'éléments de données de deux modèles de données ou plus), l'augmentation
(extraction de données d'autres sources) et autres.
Chargement, dans lequel les données sont livrées et sécurisées pour le partage, rendant les
données prêtes à l'emploi disponibles pour d'autres utilisateurs et services, à la fois au sein de
l'organisation et à l'extérieur. Ce processus peut inclure l'écrasement des données existantes de
la destination.[4]
Le processus ETL est décrit dans cette figure .
31
CHAPITRE 4. PRÉPARATION DES DONNÉES
Une fois le processus d'intégration des données bien conceptualisé, il est temps de commencer le
travail pratique. Mais d'abord, en guise de rappel de la planification du projet, une bonne pratique
consiste à créer une carte mentale entourant les données et les fonctionnalités de l'entreprise.
32
CHAPITRE 4. PRÉPARATION DES DONNÉES
Nous avons constaté que la base de données du système INFOR LN contenant les données nécessaires est prête à
être chargée.
Nous présentons les caractéristiques des données nous ed dans notre solution dans le tableau.
Caractéristiques Données
Taper XLSX
Taille 3,2 Mo
Nombre d'observations 2176
Nombre de colonnes d'observation 47
Il s'agit d'une tâche fondamentale pour utiliser l'exécution de SSMS . Pour cela, nous
devons planifier le package de SQL Server. Au début, nous créons la base de données
"sales-db". Par la suite, nous importons la table « dbo.sales-db » dans le fichier
résultats de l'intégration des données dans SQL Server Management Studio comme le
montre la figure ci-dessous.
33
CHAPITRE 4. PRÉPARATION DES DONNÉES
Maintenant, nous commençons la modélisation des données qui s'est produite à trois niveaux :
physique, logique et conceptuel. Un modèle physique est un schéma ou un cadre de stockage
physique des données dans une base de données.
Un modèle conceptuel identifie la vue utilisateur de haut niveau des données.
Un modèle de données logique se situe entre les niveaux physique et conceptuel et
permet de séparer la représentation logique des données de leur stockage physique.
• Dim-CampanyPartenaire
34
CHAPITRE 4. PRÉPARATION DES DONNÉES
35
CHAPITRE 4. PRÉPARATION DES DONNÉES
36
CHAPITRE 4. PRÉPARATION DES DONNÉES
37
CHAPITRE 4. PRÉPARATION DES DONNÉES
• Choix du modèle
Lors du choix d'un schéma de base de données pour un entrepôt de données, les schémas en flocon de
neige et en étoile ont tendance à être des choix populaires. Notre choix s'est basé sur le schéma du
38
CHAPITRE 4. PRÉPARATION DES DONNÉES
• La méthode Kimball
Ralph Kimball a été le pionnier de l'approche Kimball Data Warehouse, où le modèle de
données Kimball suit une approche ascendante de la conception de l'architecture Data
Warehouse (DW) dans laquelle les magasins de données sont d'abord formés en fonction des
besoins de l'entreprise.
Le diagramme en étoile est l'élément fondamental du dimensionnel. Dans ce schéma en étoile, une
table de faits est délimitée par plusieurs dimensions. Plusieurs diagrammes en étoile peuvent être
intégrés dans une modélisation dimensionnelle Kimball pour répondre à divers besoins en matière
de rapports. L'avantage du schéma en étoile est que les requêtes de table de petites dimensions
s'exécutent instantanément.
Pour intégrer les données, l'architecture Kimball DW suggère l'idée de dimensions de données
conformes. Il existe en tant que table de dimension de base partagée entre diffdifférentes
tables de faits (telles que client et produit) dans un entrepôt de données ou en tant que tables
de dimensions identiques dans divers magasins de données. Cela garantit qu'un seul élément
de données est utilisé de la même manière dans tous les faits. Cette figure montre le schéma
ETL avec la méthode de Kimbal.
• La méthode Inmon
Bill Inmon, le père de l'entreposage de données, a proposé le concept de développement
d'un entrepôt de données qui commence par la conception de l'entreprise
39
CHAPITRE 4. PRÉPARATION DES DONNÉES
40
CHAPITRE 4. PRÉPARATION DES DONNÉES
Il s'agit d'une table de faits qui inclut les identifiants des dimensions ainsi que les mesures.
Dans notre solution, nous proposons : Fact-Sales .
Tables de dimensions :Dim-CampanyPartner ,Dim-Dilevry , Dim-Date , Dim-
Item ,Dim-SalesOrder et Dim-Warehousing.
Voici notre schéma en étoile, dont il résume tout :
41
CHAPITRE 4. PRÉPARATION DES DONNÉES
Une table de faits fonctionne avec des tables de dimensions. Une table de faits
contient les données à analyser et une table de dimension stocke des données
sur la manière dont les données de la table de faits peuvent être analysées.
Ainsi, la table de faits se compose de deux types de colonnes. La colonne des
clés étrangères permet des jointures avec des tables de dimension et les
colonnes des mesures contiennent les données en cours d'analyse. Ci-dessous,
nous présentons les étapes d'alimentation pour chaque dimension.
42
CHAPITRE 4. PRÉPARATION DES DONNÉES
dataflowoutput est une dimension dans le Data Warehouse. Pour les faits l'entrée dataflow est
issue du fichier excel et des dimensions précédentes. La sortie du flux de données est une
dimension dans l'entrepôt de données.
• Dim-CampanyPartenaire
1/Création de flux de données
2/ Cartographie
3/Exécution
43
CHAPITRE 4. PRÉPARATION DES DONNÉES
• Dim-Dilevry
1/Création de flux de données
44
CHAPITRE 4. PRÉPARATION DES DONNÉES
2/ Cartographie
3/Exécution
45
CHAPITRE 4. PRÉPARATION DES DONNÉES
• Dim-Date
1/Création de flux de données
2/ Cartographie
46
CHAPITRE 4. PRÉPARATION DES DONNÉES
3/Exécution
47
CHAPITRE 4. PRÉPARATION DES DONNÉES
• Dim-Item
1/Création de flux de données
2/ Cartographie
48
CHAPITRE 4. PRÉPARATION DES DONNÉES
3/Exécution
49
CHAPITRE 4. PRÉPARATION DES DONNÉES
• Dim-SalesOrder
1/Création de flux de données
2/ Cartographie
50
CHAPITRE 4. PRÉPARATION DES DONNÉES
3/Exécution
51
CHAPITRE 4. PRÉPARATION DES DONNÉES
• Dim-Entreposage
1/Création de flux de données
2/ Cartographie
52
CHAPITRE 4. PRÉPARATION DES DONNÉES
3/Exécution
53
CHAPITRE 4. PRÉPARATION DES DONNÉES
• Fact-Ventes
1/Création de flux de données
54
CHAPITRE 4. PRÉPARATION DES DONNÉES
2/ Cartographie
3/Exécution
55
CHAPITRE 4. PRÉPARATION DES DONNÉES
L'entrepôt de données est maintenant rempli par les identifiants de toutes les dimensions pour
aligner les données déjà présentes dans la dimension précédente.
Conclusion
56
CHAPITRE 5
LA MODÉLISATION
57
CHAPITRE 5. MODÉLISATION
Introduction
L'apprentissage automatique (ML) est une application de l'intelligence artificielle (IA) qui permet aux
Le ML s'est avéré précieux car il peut résoudre des problèmes à une vitesse et à une échelle qui
ne peuvent pas être reproduites par l'esprit humain seul. Avec des quantités massives de
capacité de calcul derrière une seule tâche ou plusieurs tâches spécifiques, les machines
peuvent être formées pour identifier les modèles et les relations entre les données d'entrée et
automatiser les processus de routine.[5]
Deep Learning (DL) est une fonction d'intelligence artificielle qui imite le fonctionnement du cerveau
humain dans le traitement des données et la création de modèles à utiliser dans la prise de décision.
artificielle (IA) qui dispose de réseaux capables d'apprendre sans supervision à partir de données non
structurées ou non étiquetées. Également connu sous le nom d'apprentissage neuronal profond ou réseau
de neurones profond.[6]
58
CHAPITRE 5. MODÉLISATION
Une fois que nous en avons terminé avec le processus de préparation des données, nous sommes
prêts à modéliser nos données en tant que régression ou classification basée sur une tâche ou une
étiquette cible. Dans nos cas, nous devons prédire la valeur des ventes, il s'agit donc d'une tâche de
régression. Dans cette étape, nous étudions les algorithmes d'apprentissage automatique,
l'apprentissage en profondeur dans la prédiction des ventes et choisissons celui qui correspond à
nos données. Notre choix s'appuie sur la régression linéaire, la régression forestière aléatoire,
xgboost et LSTM pour prédire les ventes. Nous allons construire un modèle pour tenter de prédire
les ventes.
59
CHAPITRE 5. MODÉLISATION
Random Forest Regression est un algorithme d'apprentissage supervisé qui utilise la méthode
d'apprentissage d'ensemble pour la régression. La méthode d'apprentissage d'ensemble est
une technique qui combine les prédictions de plusieurs algorithmes d'apprentissage
automatique pour faire une prédiction plus précise qu'un modèle unique. L'algorithme
d'amorçage Random Forest combine des méthodes d'apprentissage d'ensemble avec le cadre
d'arbre de décision pour créer plusieurs arbres de décision tirés au hasard à partir des
données, en faisant la moyenne des résultats pour produire un nouveau résultat qui conduit
souvent à des prédictions/classifications solides.[7]
5.2.3 XGBoost
Le gradient boosting est un algorithme d'apprentissage supervisé, qui tente de prédire avec
précision une variable cible en combinant les estimations d'un ensemble de modèles plus
simples et plus faibles. Il fournit une amplification d'arbre parallèle et est la principale
bibliothèque d'apprentissage automatique pour les problèmes de régression, de classification
et de classement. Il est essentiel pour comprendre XGBoost de comprendre d'abord les
concepts et les algorithmes d'apprentissage automatique sur lesquels XGBoost s'appuie :
apprentissage automatique supervisé, arbres de décision, apprentissage d'ensemble et
amplification de gradient.[8]
60
CHAPITRE 5. MODÉLISATION
Avec les récentes percées survenues dans la science des données, on constate que les
réseaux de mémoire à court terme, appelés LSTM, sont un type particulier de la famille
des réseaux de neurones récursifs (RNN) de la catégorie Deep Learning. Le RNN est
une généralisation du réseau de neurones à anticipation, qui possède une mémoire
interne, où la sortie de l'étape précédente est envoyée en entrée à l'étape en cours.
Dans d'autres réseaux de neurones traditionnels, toutes les entrées et sorties sont
indépendantes les unes des autres. Mais dans notre cas, toutes les entrées doivent
être liées les unes aux autres. C'est ainsi que RNN a résolu ce problème en utilisant
une couche cachée pour produire la sortie et réduire la complexité des paramètres. .
La caractéristique principale et la plus importante de RNN est l'état caché, qui
mémorise certaines informations sur une séquence. La figure ci-dessous explique
l'architecture de RNN.
61
CHAPITRE 5. MODÉLISATION
L'algorithme RNN utilise une seule fonction d'activation de la tangente hyperbolique (tanh)
pour toutes les entrées de données, elle est exprimée par l'équation .
eX−e−X
tanh(X) = (5.1)
eX+e−X
RNN standard suffer des problèmes de gradient qui disparaissent et explosent. La
mémoire à long court terme (LSTM) résout ces problèmes en introduisant de nouvelles
portes, telles que les portes de mise à jour, les portes oubliées ou les portes de
réinitialisation et les sorties (porte de sortie). LSTM est une version modifiée des réseaux
de neurones récurrents, capable d'apprendre les dépendances à long terme, c'est-à-dire la
facilité de mémorisation des données passées en mémoire. La dépendance à long terme
dans RNN est résolue en augmentant le nombre de couches répétitives dans LSTM, il
utilise diffactivation de fonctions érentes pour calculer l'état caché. La figure présente
l'architecture de l'algorithme LSTM. Les fonctions d'activation dans LSTM sont au nombre
de cinq, tandis que RNN n'a qu'une seule fonction Activation.
62
CHAPITRE 5. MODÉLISATION
5.3 Modélisation
Comme mentionné dans les objectifs commerciaux, nous devons construire un modèle
capable de prédire les ventes, la première chose dont nous aurons besoin, ce sont des
données. Et puisque nous essayons de prédire les ventes, nous aurons besoin de données.
Les données à utiliser dans notre modélisation sont le résultat de la phase précédente.
Cette étape consiste à diviser les données en 2/3 pour la phase d'apprentissage (train) et
1/3 pour la phase de test, puis on applique les algorithmes de ML et DL, enfin on va
calculer les performances de chaque modèle. Ces étapes sont résumées dans la figure.
63
CHAPITRE 5. MODÉLISATION
Maintenant, comme nous le savons, l'apprentissage supervisé nécessite des variables indépendantes
et dépendantes XY pour que l'algorithme apprenne / s'entraîne, nous allons donc d'abord convertir nos
données dans un tel format. Maintenant que nous avons des données avec lesquelles travailler, importons-
les à l'aide de pandas afin de pouvoir les visualiser. Nous supprimons certaines des colonnes de nos
données afin qu'il ne nous reste plus qu'un index de date et le montant pour simplifier la prédiction de la
série chronologique.
Plus précisément, nous allons obtenir le montant des ventes du 1er octobre 2013
au 18 mai 2021.
Traçons, nous avons ce chiffre.
Maintenant, nous avons divisé nos données de ventes historiques pour avoir un ensemble de données qui reflète l'ensemble
64
CHAPITRE 5. MODÉLISATION
Nous allons utiliser l'ensemble d'apprentissage pour former un modèle afin d'essayer de prédire
les valeurs sur l'ensemble de test.
Ensuite, nous construisons nos modèles.
Commençons par un modèle de base. L'un des modèles de base les plus courants pour la
régression est la régression linéaire
Modèle 2 : Régression forestière aléatoire
Nous construisons le deuxième modèle Random Forest Regression.
Modèle 3 : XGBoost
Ensuite, nous construisons le XGBoost à nos
données. Modèle 4 : LSTM
Nous utilisons un réseau neuronal récurrent pour modéliser nos données séquentielles.
Enfin, nous calculons les performances avec des protocoles expérimentaux. Son
résultat sera utilisé dans le chapitre suivant.
Conclusion
Dans ce troisième chapitre, nous avons analysé et affiné les données fournies à l'aide de
méthodes et d'algorithmes supervisés et non supervisés afin de décrire, d'expliquer et de
prédire les ventes futures qui pourraient aider Zum-it à prévenir davantage.
65
CHAPITRE 6
ÉVALUATION
66
CHAPITRE 6. ÉVALUATION
Introduction
À ce stade, nous avons terminé la majeure partie de votre projet d'exploration de données. Nous
avons également déterminé, dans la phase de modélisation, que les modèles construits sont
techniquement corrects et effeffectif, selon les critères de réussite de l'exploration de données que
vous avez définis précédemment. Nous allons maintenant passer à une évaluation de la phase de
modélisation.
√
1 ( )2
RMS E= Σnje=1yr − yp (6.1)
n
1∑ n
∣∣∣y−yp ∣∣∣
MAE= ( ) r (6.2)
n je=1
67
CHAPITRE 6. ÉVALUATION
∣
100%∑ n∣∣y−r yp∣∣∣∣
CARTE= ( ) ∣∣∣ (6.5)
n t=1
yr
68
CHAPITRE 6. ÉVALUATION
69
CHAPITRE 6. ÉVALUATION
Conclusion
70
CHAPITRE 7
DÉPLOIEMENT
71
CHAPITRE 7. DÉPLOIEMENT
Introduction
Les tableaux de bord sont un mécanisme de reporting qui regroupe et affiche des mesures et
des indicateurs clés afin qu'ils puissent être examinés en un coup d'œil par tous les publics
possibles. Il sert à afficher les informations les plus importantes et les plus utiles dans la
solution.
• Nous avons choisi d'adapter le tableau de bord sur une seule page. Il fournit la discipline
nécessaire pour se concentrer uniquement sur les informations les plus critiques et permet au public
de voir les résultats "en un coup d'œil".
• Nous avons respecté la palette de couleurs de l'entreprise pour les visualisations de données.
Nous avons choisi la couleur du logo. La couleur dominante est le bleu qui est utilisé pour faire
de la couleur d'accent pour attirer l'attention sur le titre des tableaux de bord et tous les
graphiques.
72
CHAPITRE 7. DÉPLOIEMENT
Le type de matrice de remise par unité de prix de vente est affiché à l'aide du graphique en
anneau qui contient la remise par prix de vente, comme indiqué sur la figure.
Le tableau des noms de quantité livrée par mois est illustré dans la figure. Il s'agit
d'un treemap qui compare la date d'origine de la date promise et la date de sortie de
la quantité commandée.
73
CHAPITRE 7. DÉPLOIEMENT
Figure 7.4 : Prix de revient détenu par l'entreprise en monnaie locale et montant brut en
monnaie locale par mois
Le tableau Quantité commandée par article est le tableau de la quantité commandée de l'article. Il
Dans ce tableau de bord, le revenu total, le total de la quantité commandée, le montant par
partenaire commercial à l'aide du graphique en anneau, le type de matrice de remise par unité de
prix de vente est affiché à l'aide du graphique en anneau, la quantité livrée par mois à l'aide d'une
arborescence, le type de matrice de remise par ventes Unité de prix à l'aide d'un graphique en aires
et Quantité commandée par article à l'aide d'un graphique à barres groupées . Sur l'en-tête,
l'utilisation de cartes est faite pour sélectionner les attributs qui correspondent aux objectifs
d'exploration de données.
74
CHAPITRE 7. DÉPLOIEMENT
Après la phase d'évaluation des modèles de machine learning et de deep learning, nous
choisissons un modèle Random Forest Regression. Nous créons un tableau de bord de
prédiction qui implémente un modèle d'apprentissage automatique.
À l'aide du graphique en aires, le montant et la prédiction sont affichés à l'aide du graphique en
aires qui contient le différence entre la valeur prévue et la dernière valeur de quantité au fil du
temps, comme indiqué sur la figure.
75
CHAPITRE 7. DÉPLOIEMENT
En utilisant un autre graphique en aires, la prédiction est affichée à l'aide du graphique en aires
qui indique la prédiction dans le temps, comme indiqué sur la figure.
76
CHAPITRE 7. DÉPLOIEMENT
Dans ce tableau de bord, nous commençons par la carte de Date, Montant par
prévisions, prévisions, Montant en un mois Montant en deux mois Montant en trois
mois .Nous utilisons également la carte de date.
77
CHAPITRE 7. DÉPLOIEMENT
Conclusion
78
Conclusion générale
Cette phase de notre projet BI comprenait une description du contexte de notre
projet, ainsi que de notre méthodologie de travail choisie. En plus de cela, nous avons
également défini l'identification de la source de données afin d'avoir des idées claires
sur le travail qui doit être fait dans les étapes précédentes et la conception où nous
avons détaillé le schéma d'architecture du système et décrit notre environnement
logiciel qui aidera nous pour atteindre nos objectifs à la fin. Ensuite, nous avons
montré la mise en œuvre de notre travail et fourni toutes les analyses de données
nécessaires pour terminer avec la phase de dshbording. Il était également
indispensable de doter le Zum-it d'un tableau de bord pour optimiser la répartition des
tâches, optimiser l'allocation des ressources et la durée des projets.
79
PERSPECTIVES
Notre solution a été faite sur ses données, qui représentent une partie d'INFOR LN.
Aussi pour les prochaines fois, nous cherchons à améliorer notre solution.
- Afin de maximiser la visualisation du tableau de bord des ventes, nous pouvons diviser
plusieurs pages du tableau de bord.
- Amélioration des données non stationnaires pour les modèles construits en machine
learning à hautes performances.
- Après avoir obtenu les différents graphiques souhaités affichés sur notre tableau de
bord, nous devrons développer une interface web pour l'administrateur afin de faciliter le
contrôle des paramètres d'entrée.
80
BIBLIOGRAPHIE
https://www.algotive.ai/blog/
tout-ce-qu'il-faut-savoir-sur-l'apprentissage-profond-de-la-
technologie-qui-imite-le-cerveau-humain,2022.
https://docs.aws.
[8] Amazon Web Services. Xgboost fonctionne.
amazon.com/sagemaker/latest/dg/xgboost-HowItWorks,
2022.
81