You are on page 1of 28

RÉPUBLIQUE DU CAMEROUN INSTITUT UNIVERSITAIRE DE

REPUBLIC OF CAMEROON TECHNOLOGIE


Peace – Works - Fatherland FOTSO VICTOR DE BANDJOUN
UNIVERSITÉ DE DSCHANG FOTSO VICTOR UNIVERSITY
INSTITUTE OF TECHNOLOGY
UNIVERSITY OF DSCHANG Département de Génie Informatique
Scholae Thesaurus Dschangensis Ibi Cordum Département of Computer Engineering
BP 96, Dschang (Cameroun) – Tél. /Fax BP 134, Bandjoun – Tél./Fax (237) 299
(237) 233 45 13 81 31 61 30 / 70 64 23 92 Web site :
Web site: http://www.univ-dschang.org. http://www.univ-dschang.org/iutfv/.
E-mail : udsrectorat@univ-dschang.org E-mail : iutfv-bandjoun@univ-
dschang.org

RAPPORT DE CLOUD COMPUTING

PROJET : SMART DRIVE (Support pour les conducteurs de véhicules en


utilisant un GPS et un GSM)

MEMBRES DU GROUPE FILIERES MATRICULES

KUETCHE SIMO RONALD LCDRI CM-USD-20IUT0595


NELSON
TAGNE NGUIFO GABIN LCDRI CM-UDS-20IUT0206
LANDRY
KANKEU KANKEU WILLIAM LQSIR CM-UDS-20IUT0794

TCHATCHOUANG FEZZE LQSIR


STEVE ANICET

Coordonner par Dr FOTSING Éric

Année académique 2022-2023


RAPPORT DE CLOUD COMPUTING

SOMMAIRE

SOMMAIRE .............................................................................................................................................. 2
INTRODUCTION ....................................................................................................................................... 3
I. GENERALITE SUR LE CLOUD............................................................................................................. 4
II. ARCHITECTURE CLOUD DE NOTRE PROJET ..................................................................................... 4
III. ASPECT BIGDATA DU PROJET ET BASE DE DONNE ...................................................................... 5
1) Etude de quelques plateformes de Big Data ............................................................................... 5
1.1) Apache Hadoop ................................................................................................................... 6
1.2) Open Stack........................................................................................................................... 6
1.3) Google App Engine .............................................................................................................. 6
2) Installation de Apache Hadoop ................................................................................................... 7
3) Les bases de données NoSQL .................................................................................................... 17
3.1) Installation de Cassandra ....................................................................................................... 18
4) Quelques avantages et inconvénients des meilleurs stockages en ligne .................................. 25
5) Data Mining ............................................................................................................................... 26
CONCLUSION ......................................................................................................................................... 27
WEBOGRAPHIE ...................................................................................................................................... 28

20 janvier 2023 2
RAPPORT DE CLOUD COMPUTING

INTRODUCTION

Le paradigme selon lequel les données doivent être stockés de manière structurée et de manière
fortement typés relève du modèle mathématique implémentant les bases de données
relationnelles avec la mise en place d’un langage de requête appelé le SQL. Ceci étant, cette
façon de penser qui sépare totalement les données des traitements ne résous pas les problèmes
posés avec les nouvelles architectures et les problèmes un peu plus complexes. C’est donc ainsi
qu’est né un ensemble de SGBD qui s’éloigne du paradigme No SQL « pas seulement le SQL
ou Not Only SQL en Anglais ». La raison principale de l'émergence et de l'adoption des SGBD
NoSQL serait le développement des centres de données et la nécessité de posséder un
paradigme de bases de données adapté à ce modèle d'infrastructure matérielle3.

20 janvier 2023 3
RAPPORT DE CLOUD COMPUTING

I. GENERALITE SUR LE CLOUD

Le cloud computing est la mise à disposition de ressources informatiques à la demande via


Internet, avec une tarification en fonction de votre utilisation. En outre c ’est un ensemble de
serveurs en réseau (incluant des systèmes d'exploitation et des logiciels), installés dans un
datacenter, qui exécutent les traitements et stockent les données. Tout traitement de données
dont l'exploitation est fournie via internet par un prestataire de services informatiques ne relève
donc pas nécessairement du cloud computing, contrairement à ce que laisse entendre cette
définition officielle (par exemple une application hébergée sur un serveur unique du prestataire
et accessible au moyen d'un navigateur n'est pas « dans le cloud » à proprement parler). En
d'autres termes, les notions de SaaS et de cloud computing sont étroitement liées mais ne se
confondent pas : tout service SaaS n'est pas dans le cloud et réciproquement tout service cloud
n'est pas un service SaaS, contrairement à une idée répandue. On distingue 3 principaux types
de cloud : Cloud public, Cloud privé, cloud hybride.

II. ARCHITECTURE CLOUD DE NOTRE PROJET


Concernant l’architecture cloud computing de notre projet nous, il est question ici de la façon
dont est disposer notre projet avec le cloud et tous les service et fonctionnalité qui s’y accorde.

En ce qui concerne l’architecture du cloud il se présente de la façon suivante :

Figure 1: architecture cloud

20 janvier 2023 4
RAPPORT DE CLOUD COMPUTING

Associer avec notre projet cela donne donc l’architechture suivante que l’on souhaite pour
notre projet.

Figure 2: architecture cloud couple a notre projet

III. ASPECT BIGDATA DU PROJET ET BASE DE DONNE

En ce qui concerne l’aspect BigData de notre projet nous allons utiliser une base de donner qui
va offrir la possibilité de stocker les donnes de grand volume et de nature différente d’où on va
faire recoure aux bases de donne No SQL qui est une base de donner qui vas nous permettre
d’effectuer tous ce que nous voulons effectuer.
Dans notre cas nous avons concentrer nos recherches sur trois plateforme No SQL que nous
avons trouvé suffisant pour gérer les donner de notre système, ces trois plateformes sont entre
autres : APACHE HADOOP, OPEN STACK, GOOGLE APP ENGINE.

1) Etude de quelques plateformes de Big Data

20 janvier 2023 5
RAPPORT DE CLOUD COMPUTING

1.1) Apache Hadoop

Hadoop est un Framework open source qui repose sur


Java. Hadoop prend en charge le traitement des données
volumineuses (Big Data) au sein d'environnements
informatiques distribués. Hadoop fait partie intégrante du
projet Apache parrainé par l'Apache Software Foundation. Les
avantages de Hadoop sont nombreux. Ce Framework permet tout d'abord un stockage et un
traitement plus rapides de vastes volumes de données. Il s'agit d'un précieux atout à l'ère des
réseaux sociaux et de l'Internet des Objets.

1.2) Open Stack

Open Stack est une plateforme Open Source qui permet de


créer et gérer des clouds privés et publics à partir de pools de
ressources virtuelles. Le Cloud Open Stack offre les avantages
suivants : Une utilisation qui nécessite peu de matériel, les
services du cloud peuvent généralement être utilisés avec
n'importe quel appareil compatible avec Internet. Haute sécurité
et fiabilité des données. Évolutivité du volume de stockage et de la puissance.

1.3) Google App Engine

Google App Engine (GAE) est le PaaS de Google. Le


moteur de GAE impose que les applications soient écrites en
Java, Python, PHP, Node. JS et Go. Google App Engine vise à
éliminer les tâches d'administration système et de développement pour faciliter l'écriture
d'applications évolutives. Google App Engine permet aux développeurs d'ajouter le code de
leurs applications sur la plateforme de Google et se charge de la gestion de l'infrastructure. Il
permet également de sécuriser vos applications web et d'en assurer le fonctionnement.

20 janvier 2023 6
RAPPORT DE CLOUD COMPUTING

2) Installation de Apache Hadoop

Dans le cadre de notre projet intitulé SMART DRIVE, nous avons opter pour utiliser la
plateforme Apache Hadoop. Il est annoté qu’Apache Hadoop va nous servir ici à stocker toutes
les données relatives à la zone géographique (c’est-à-dire la longitude et la latitude), les
différentes vitesses.

ARCHITECTURE DE L’ECOSYSTEME D’APACHE HADOOP

Figure 3: ecosysteme d'apacha hadoop


Ici on nous présente comment est disposer l’écosystème de apache hadoop, les composante qui
constitue son écosystème.

SYSTEME DE GESTION DES DONNEES

20 janvier 2023 7
RAPPORT DE CLOUD COMPUTING

➢ Voici un résumé des tâches impliquées dans la configuration d’Apache Hadoop :

Tâche 1 : La première tâche de l’installation Hadoop consistait à configurer un modèle de

machine virtuelle configuré avec Cent OS7. Les packages tels que Java SDK 1.8 et Runtime

Systems requis pour exécuter Hadoop ont été téléchargés, et la variable d’environnement Java

pour Hadoop a été configurée en modifiant bash_rc.

Résultat de la tache 1 : Une nouvelle machine virtuelle avec une image cenOS7 a été

configurée pour exécuter Apache Hadoop. La figure 1 montre comment l’image CenOS 7 a

été configurée dans la machine virtuelle. La figure 2 montre la configuration de la variable

d’environnement JAVA dans .bash_rc.

20 janvier 2023 8
RAPPORT DE CLOUD COMPUTING

Figure 1 : Configuration de l’image CenOS

Figure 2 : Configuration de la variable d’environnement

Tâche 2 : Le package Hadoop Release 2.7.4 a été téléchargé à partir du site Web Apache et a

été extrait dans le dossier opt. Qui a ensuite été renommé Hadoop pour un accès facile.

Résultat de la tache 2 : La figure illustre la tâche effectuée pour extraire le package Hadoop

dans le dossier opt.

Figure 3

20 janvier 2023 9
RAPPORT DE CLOUD COMPUTING

Tâche 3 : Une fois les packages Hadoop extraits, l’étape suivante comprenait la configuration

de la variable d’environnement pour l’utilisateur Hadoop, suivie de la configuration des

fichiers XML de nœud Hadoop. Dans cette étape, NameNode a été configuré dans core-

site.xml et DataNode a été configuré dans hdfs-site.xml. Enfin, le gestionnaire de ressources

et le gestionnaire de nœuds ont été configurés dans yarn-site.xml.

Résultat de la tache 3 : La figure montre la configuration de la variable d’environnement

pour l’utilisateur Hadoop, la figure montre la configuration des fichiers XML requis pour la

configuration Hadoop.

Figure 4 : Configuration de la variable d’environnement pour l’utilisateur Hadoop.

Figure 5 : Configuration du site-principal.xml.

20 janvier 2023 10
RAPPORT DE CLOUD COMPUTING

Figure 6 : Configuration de hdfs-site.xml.

Figure 7 : Configuration du fichier mapred-site.xml.

Figure 8 : Configuration du fichier yarn-site.xml.

20 janvier 2023 11
RAPPORT DE CLOUD COMPUTING

Tâche 4 : Le pare-feu a été désactivé afin de démarrer YARN et DFS. La commande JPS a

été utilisée pour vérifier si les démons pertinents s’exécutent en arrière-plan. Le numéro de

port permettant d’accéder à Hadoop a été configuré sur http://localhost:50070/.

Résultat de la tache 4 : La figure montre l’utilisation de la commande jps pour vérifier que

les démons pertinents s’exécutent en arrière-plan et la figure suivante montre l’interface

utilisateur en ligne de Hadoop.

Figure 9 : Commande jps pour vérifier les processus en cours d’exécution.

Figure 10 : Accès à l’interface en ligne Hadoop au port http://hadoop1.example.com:50070/

Tâche 5 : Les étapes suivantes ont été utilisées pour vérifier et tester Hadoop. Pour cela, nous

avons créé un fichier de test temporaire dans le répertoire d’entrée du programme

WordCount. Ensuite, le programme map-reduce Hadoop-MapReduce-examples2.7.4.jar a été

20 janvier 2023 12
RAPPORT DE CLOUD COMPUTING

utilisé pour compter le nombre de mots dans le fichier. Enfin, les résultats ont été évalués sur

l’hôte local et les journaux de la demande soumise ont été analysés. Toutes les applications

MapReduce soumises peuvent être consultées sur l’interface en ligne, le numéro de port par

défaut étant 8088.

Résultat de la tache 5 : La figure montre le résultat pour le programme MapReduce appelé

wordcount, qui compte le nombre de mots dans le fichier. Les deux figures suivantes affichent

l’interface utilisateur en ligne du gestionnaire de ressources YARN pour la tâche soumise.

Figure 11 : Résultats du programme MapReduce

Figure 12 : Demande de réduction de carte soumise.

20 janvier 2023 13
RAPPORT DE CLOUD COMPUTING

Figure 13 : Journaux pour l’application MapReduce soumise.

Tâche 6 : Nous allons introduire quelques commandes de base du système de fichiers Hadoop

et vérifier leurs utilisations dans la tâche finale. Nous allons voir comment un répertoire peut

20 janvier 2023 14
RAPPORT DE CLOUD COMPUTING

être créé dans le système de fichiers Hadoop pour lister le contenu d’un répertoire, sa taille en

octets. Nous verrons plus loin comment supprimer un répertoire et un fichier spécifiques.

Résultat de la tache 6 :

La figure montre comment créer un répertoire dans le système de fichiers Hadoop et effectuer

une liste du répertoire hdfs.

Création d’un répertoire dans le système de fichiers Hadoop.

Montre comment placer un fichier sur le système de fichiers distribué Hadoop et la figure 6.2

montre le fichier créé dans le répertoire dirB.

Figure 14 : Création d’un fichier dans HDFS.

20 janvier 2023 15
RAPPORT DE CLOUD COMPUTING

Figure 15 : Nouveau fichier créé.

Les quelques figures suivantes montrent comment lister le contenu de répertoires particuliers :

Figure 16 : Contenu de dir B

La figure suivante montre comment afficher la taille du fichier et du répertoire :

Figure 17 : Affichage de la taille d’un fichier et d’un répertoire.

20 janvier 2023 16
RAPPORT DE CLOUD COMPUTING

La suppression d’un répertoire ou d’un fichier peut être facilement effectuée par la commande

-rm.

Figure 18 : Suppression d’un fichier.

3) Les bases de données NoSQL

Les bases de données NoSQL sont désignées indifféremment comme « non relationnelles » ou
« non SQL » pour souligner le fait qu'elles peuvent gérer d'importants volumes de données non
structurées et évoluant rapidement, et de manière différente par rapport à une base de données
relationnelle (SQL) avec lignes et tables. Sur les types de base de données NoSQL, ce qui attire plus
mon attention est le magasin de document et base de données objets car celui des bases de données
objets ressemble un peu à un diagramme de classe et le magasin de document est enregistré sous
format JSON.

Propriétés du NO-SQL

• Fournit un modèle de base de données diffèrent du modèle relationnel ou objet


• Ces modèles datent des années 1960
• Ils sont principalement utilisés sur les clusters des serveurs
• Permet un modèle qui peut s’étendre plus facilement (scalabilité)
• Assouplit les contraintes généralement présentent sur les modèles relationnels
• Permet de gérer rapidement les tonnes de données

Famille de NO-SQL

• Base clé/valeur (MemCacheDb)


• Base orienté document (MongoDb)
• Base orienté graph (Neo4J)

20 janvier 2023 17
RAPPORT DE CLOUD COMPUTING

• Base orienté colonne (column wide Cassandra)


Mais aussi les multi modèles
• Graph et document (OrientDB)
• Clé valeur, graph, document (ArrangoDb)
• Le NewSQL redonner de l’acidité au NoSQL (NuoDb)
Le data warehouse
Un « data warehouse » est un type de système de gestion de données conçu pour permettre et
prendre en charge les activités de BI (Business Intelligence), en particulier analytiques. Les data
warehouses sont uniquement destinés à effectuer des requêtes et des analyses. Ils contiennent
souvent de grandes quantités de données historiques. Les données contenues dans un data
warehouse proviennent généralement d’un large éventail de sources telles que les fichiers
journaux d’application et les applications transactionnelles. Un data warehouse centralise et
consolide de grandes quantités de données provenant de plusieurs sources. Ses capacités
analytiques permettent aux organisations de tirer de leurs données de précieuses informations
commerciales leur permettant d’améliorer leur processus de prise de décision. Au fil du temps,
il crée un enregistrement historique qui peut s’avérer inestimable pour les data scientists et les
analystes métiers. En raison de ces capacités, un data warehouse peut être considéré comme la
« source unique d’informations fiables » d’une entreprise.
Dans le cadre de notre projet intitulé SMART DRIVE, nous avons utilisé Cassandra. Je vais donc vous
montrer comment installé Cassandra.

3.1) Installation de Cassandra

Étape 1 : Installer Java 8 sous Windows

Le kit de développement Java contient tous les outils et logiciels dont vous avez besoin pour exécuter
des applications écrites en Java. C’est une condition préalable aux solutions logicielles telles
qu’Apache Cassandra.

• Télécharger Oracle JDK 8 (Java Development Kit)


• Visitez la page de téléchargement officielle d’Oracle et téléchargez le progiciel Oracle JDK 8.

Faites défiler vers le bas et localisez le lien de téléchargement Java SE Development Kit 8u251for
Windows x64. Le téléchargement de Java 8 démarre automatiquement après l’inscription.

20 janvier 2023 18
RAPPORT DE CLOUD COMPUTING

1. Une fois le téléchargement terminé, double-cliquez sur le fichier exécutable téléchargé.


Sélectionnez Suivant sur l’écran d’installation initiale.

2. La section suivante vous permet de sélectionner des fonctionnalités facultatives et de


définir l’emplacement du dossier d’installation. Acceptez les paramètres par défaut et
notez le chemin d’accès complet au dossier d’installation, C : Program
FilesJavajdk1.8.0_251. Une fois que vous êtes prêt à poursuivre l’installation, cliquez
sur Suivant.

20 janvier 2023 19
RAPPORT DE CLOUD COMPUTING

3. Le processus d’installation peut prendre plusieurs minutes. SélectionnezFermerune fois


le processus terminé

• Configurer les variables d’environnement pour Java 8

Il est essentiel de configurer les variables d’environnement dans Windows et de définir le


chemin d’accès correct au dossier d’installation Java 8.

1. Accédez àce PC > propriétés.

20 janvier 2023 20
RAPPORT DE CLOUD COMPUTING

2. Sélectionnez Paramètres système avancés

3. Cliquez sur les variables d’environnement... bouton.

20 janvier 2023 21
RAPPORT DE CLOUD COMPUTING

4. Sélectionnez Nouveau dans la sectionVariable système.

5. Entrez JAVA_HOME pour le nouveau nom de variable. Sélectionnez le champValeur


de la variable, puis l’option Parcourir le répertoire.

20 janvier 2023 22
RAPPORT DE CLOUD COMPUTING

6. Accédez à ce PC > disque local C : > Program Files > Java > jdk1.8.0_251et
sélectionnez OK.

7. Une fois que le chemin d’accès correct au dossier d’installation JDK 8 a été ajouté à la
variable système JAVA_HOME, cliquez sur OK.

8. Vous avez ajouté avec succès la variable système JAVA_HOME avec le chemin JDK
8 correct à la liste des variables. Sélectionnez OK dans la fenêtreprincipale Variables
d’environnement pour terminer le processus.

20 janvier 2023 23
RAPPORT DE CLOUD COMPUTING

Étape 2 : Installer et configurer Python 2.7 sur Windows

Installer Python 2.7 sous Windows


Modifier la variable d’environnement pour Python 2.7

Étape 3 : Téléchargez et configurez Apache Cassandra

Télécharger et extraire Cassandra tar.gz dossier


Configurer les variables d’environnement pour Cassandra

Étape 4 : Démarrez Cassandra à partir de Windows CMD

Étape 5 : Accéder à Cassandra cqlsh à partir de Windows CMD

20 janvier 2023 24
RAPPORT DE CLOUD COMPUTING

4) Quelques avantages et inconvénients des meilleurs stockages en ligne

Stockages en ligne Avantages Inconvénients


Pcloud ✓ Un système de ✓ Pas d’intégration
récompenses d’applications tierces
ludique ;
✓ Une interface claire
et facile à prendre en
main ;
✓ Des tonnes de
fonctionnalités
Google Drive ✓ Intégration de ✓ Confidentialité ;
Google Workspace ; ✓ Pas de cryptage sans
✓ Nombreuses connaissance ;
applications tierces ; ✓ Absence de
✓ Outils de synchronisation par
collaboration ; blocs ;
✓ Vitesse de ✓ Plans payants peu
synchronisation ; compétitifs ;
✓ Sauvegarde sélective ✓ Partages non
protégés par des
mots de passe
Icedrive ✓ Sécurité et ✓ Pas de
confidentialité synchronisation au
remarquables ; niveau des blocs ;
✓ Plan gratuit ✓ Interface non
généreux ; francisée
✓ Cryptage de bout en
bout sans
connaissance ;
✓ Tarifs bon marché
Dropbox ✓ Synchronisation ✓ Espace de stockage
remarquable ; gratuit minuscule ;
✓ Ecosystème ✓ Sauvegardes
complet ; sélectives limitées ;
✓ Performances ✓ Politique de
lecture/ écriture ; confidentialité ;
✓ Productivité et ✓ Serveurs basés aux
partage ; Etats-Unis ;
✓ Offre d’essai 30 ✓ Tarifs élevés
jours
MEGA ✓ Espace de stockage ✓ Synchronisation
de 15 Go extensible ; basique ;
✓ Sécurité et ✓ Pas d’applications
confidentialité ; tierces ;

20 janvier 2023 25
RAPPORT DE CLOUD COMPUTING

✓ Fonctionnalités de ✓ Collaboration
partage ; limitée ;
✓ Applications ✓ Vitesse de
mobiles ; téléchargement ;
✓ Chat anonyme ✓ Tarifs assez élevés

5) Data Mining
Le Data Mining désigne le processus d'analyse de volumes massifs de données et du Big
Data sous différents angles afin d'identifier des relations entre les data et de les transformer en
informations exploitables.

Fonctionnement du Data Mining : Le Data Mining est la pratique consistant à


rechercher automatiquement de grandes quantités de données afin de découvrir des tendances
et des modèles qui vont au-delà de la simple analyse. Il est souvent couplé au Deep Learning
et au Machine Learning.

Comment faire du Data Mining : Pour y parvenir, le Data Mining s'appuie sur la
masse de données laissées par vos prospects et clients dans votre environnement digital. Cette
stratégie, appartenant au Big Data, se concentre essentiellement sur les données marketing.
Un outil de Data Mining est capable de : Catégoriser les renseignements obtenus. Pour cela il
existe deux catégories : Classification (chercher de nouvelles patterns, quitte à changer la
façon dont les données sont organisées), Clustering (trouver et documenter visuellement des
groupes de faits précédemment inconnus).

20 janvier 2023 26
RAPPORT DE CLOUD COMPUTING

CONCLUSION

Le Big Data a joué un rôle très important dans le façonnement du marché mondial
d’aujourd’hui. Le framework Hadoop facilite la vie des analystes de données lorsqu’ils
travaillent sur des jeux de données volumineux. La configuration d’Apache Hadoop était assez
simple et l’interface utilisateur en ligne offrait à l’utilisateur de multiples options pour régler et
gérer l’application. Hadoop a été massivement utilisé dans les organisations pour le stockage
de données, l’analyse de l’apprentissage automatique et la sauvegarde des données. La gestion
d’une grande quantité de données a été très pratique grâce à l’environnement distribué Hadoop
et à MapReduce. Le développement Hadoop était assez étonnant par rapport aux bases de
données relationnelles car elles manquent d’options de réglage et de performances. Apache
Hadoop est une solution conviviale et peu coûteuse pour gérer et stocker efficacement le Big
Data. HDFS contribue également grandement au stockage des données.

20 janvier 2023 27
RAPPORT DE CLOUD COMPUTING

WEBOGRAPHIE

➢ Introduction à Apache Hadoop : installation et configuration d'un cluster simple noeud


avec Cloudera CDH 5 (developpez.com)

➢ Installez Hadoop | Savoir comment intensifier et configurer Apache Hadoop (educba.com)

➢ Installez Cassandra sur Windows 10: tutoriel avec des étapes simples (phoenixnap.com)

20 janvier 2023 28

You might also like