0% found this document useful (0 votes)
32 views37 pages

Introduction Au Big Data

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
32 views37 pages

Introduction Au Big Data

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd

Introduction au Big Data

PLAN
I. Introduction

II. Historique

IV. Dimensions

V. Domaines d'applications

VI. Technologie des Big data

VII. Plateforme et architecture


I. Introduction
• Les entreprises sont confrontées à des données de volumes
considérables à traiter et présentant un fort enjeux commercial et
marketing
• Quelques chiffres
 Chaque jour, nous générons 2,5 trillions d’octets de données
90% des données dans le monde ont été créées au cours des dernières années.
• Ces gros volumes de données deviennent de plus en plus difficiles à
travailler avec des outils classiques de gestion de données.
• Il faut donc un ensemble de technologies, d'outils et de procédures
pour capter, traiter et analyser ces données hétérogènes afin d'extraire
des informations utiles à un coût accessible
Comprendre les défis du traitement
massif de données

Objectifs Avoir des bases sur la conception et le


déploiement d'applications BigData

Transformer ces données en informations


exploitables

Collecter, stocker, et analyser les données


(à des coûts raisonnables) avec des
technologies nouvelles de stockage et
surtout d’analyse.
Avant les Big Data
• Traitement massif des données • Data mining
 Calcul réparti et HPC(High ✓ Méthodes statistiques pour l’extraction des
connaissances
Performance Computer)
✓ D’abord un modèle, qui sera ensuite validé
✓ Effort concentré sur les problèmes de ✓ Echantillonnage des données pour tenir dans la
"calcul intensif« mémoire
✓ Les réseaux n’étaient pas si
performants, on évitait de faire des
transferts de données.
Bases de données
✓ Le modèle relationnel s’est imposé dans
les années 80
✓ Données structurées (tableaux), formes
normales
✓ Très forte optimisation des SGBD
Raison d'être
Augmentation exponentielle des données générées, enregistrées et
analysées par les utilisateurs modernes et leurs applications
Sources de données
• Ces données ont des sources diverses :
✓ Ordinateurs et Smartphones
✓ Open data : réseaux sociaux
✓ Internet des objets (RFID : codes bar, cartes de transport ..), 50 milliard
d'objets connectés en 2020.
✓ Images, son et vidéos.
✓ Achats en ligne.
✓ Signaux GPS, téléphones mobiles,
✓ Capteurs utilisés pour collecter les informations climatiques, de trafic,
consommation (Smart cities).
✓ commentaires de blogs, logs…
✓ les cookies

• Données appelées Big Data ou Données Massives ou mégadonnées


Donner une définition claire d'un terme aux contours aussi flous que le Big Data
est délicat. On peut toutefois s'en faire une bonne idée en considérant les
différents ordres de grandeurs d'espaces de stockage représentés sur la figure

Quelques ordres de grandeurs d'espaces de stockage ainsi que la frontière approximative du Big Data.
Problème posé par ces énormes quantités de
données
• Avant, les SGBD avaient des échelles limitées et ne sont pas préparés
pour l'échelle produite actuellement. Alors il faut revoir l'infrastructure
et les méthodes de traitement (capture, stockage, rechercher, analyse,
visualisation, .. ) car les données deviennent difficiles à manipuler par
les outils classiques.
Gestion des données par le Big Data
• Les outils BigData sont construits en gardant à l'esprit les caractéristiques
suivantes :
• Distribution des données : réplication Les données sont réparties sur
plusieurs machines et sont prêtes au traitement parallèle. De telle
distribution est réalisée par un Système de fichiers distribués (DFS). Cette
réplication peut coûter beaucoup d'espace.
• La tolérence aux pannes
• Utilisation de matériel standard : donc réduit le coût de l'infrastructure
globale.
• Flexibilité et scalabilité (verticale et horizontale)
Frontière du BigData
• On considère du BigData quand le traitement devient trop long pour une seule
machine.
• Big data is high volume, high velocity, and/or high variety information assets that
require new forms of processing to enable enhanced decision making, insight
discovery and process optimization.(Gartner, updated definition of big data 2012)
• Le big data ou mégadonnées parfois appelées données massives, désignent des
ensembles de données devenus si volumineux qu'ils dépassent l'intuition et les
capacités humaines pour les analyser et même celles des outils informatiques
classiques de gestion de base de données ou de l'information.
• De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche,
le partage, l'analyse et la visualisation des données.
• Le Big Data n’est pas seulement une problématique de volume contrairement à ce
que son nom laisse supposer.
II. Historique
• En octobre 1997, l'expression « big data » est apparue selon les archives de la
bibliothèque numérique de l’ACM (Association for Computing Machinery), dans
des articles scientifiques sur les défis technologiques à relever pour visualiser les
grands ensembles de données
III. Dimensions (5V)
• Le big data s'accompagne du développement d'applications à visée analytique, qui
traitent les données pour en tirer du sens. Ces analyses sont appelées Big
Analytics. Elles portent sur des données quantitatives complexes à l'aide de
méthodes de calcul distribué et de statistiques.
• Gartner 2001 : 3V (Volume, Variété, Vélocité)
• IBM 2012 : 4V (+Véracité)
• 2015 : 5V (+ Valeur)
Volume
Le volume des données stockées est en pleine croissance: les données numériques de
tous types créées dans le monde seraient passées de 1,2 zo par an en 2010 à 40 zo en
2020. Chaque jour 2.5 trillions octets de données sont générées. Prévision d'une
croissance de 800% de données pour les 5 prochaines années. Le prix de stockage a
beaucoup diminué
Des solutions de stockage fiables sont nombreuses
➢ SAN (Storage Area Networks)
➢ Stockage sur le cloud
Comment déterminer les données qui méritent d’être stockées?
➢ Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?
➢ Aucune donnée n’est inutile (juste pas encore servies)
Accélération matérielle

• Nombreux serveurs/clusters
Un serveur unique ne peut stocker cette quantité d'information, garantir des temps
d'accès pour un grand nombre d'utilisateur, faire des calculs rapides, etc
• Besoin de distribuer les calculs et les données
Comme il y a plusieurs serveurs/clusters, on a besoin d'algorithmes permettant le
calcul et la distribution des données à large échelle.
• Data centers de quelques grands acteurs du Big Data :
▫ Google DataCenter : 70 000 servers/data center et 16 data centers, ~1M de serveurs
▫ Facebook : 5 data centers
▫ Amazon : 7 data centers, 450 000 severs
▫ Microsoft :environ 1M serveurs
Variété
• Le volume des big data met les data center face à un réel défi : la
variété des données. Il ne s'agit pas de données relationnelles
traditionnelles, mais des données brutes, semi-structurées ou non
structurées.
Ce qui les rend difficilement utilisables avec les outils traditionnels.
Vélocité (vitesse)
• La vélocité représente la fréquence à laquelle les données sont
générées, capturées, partagées et mises à jour. Parfois, les données
doivent être saisies et traitées au fur et à mesure de leur collection en
temps réel (fouille de flots de données) pour répondre aux besoins
des processus chrono-sensibles.
• Par exemple, les systèmes mis en place par la bourse et les
entreprises doivent être capables de traiter les données avant qu’un
nouveau cycle de génération n’ait commencé, avec le risque pour
l'Homme de perdre une grande partie de la maîtrise du système.
• Ceci parce que les principaux opérateurs deviennent des "robots"
capables de lancer des ordres d'achat ou de vente à la nanoseconde
(Trading haute fréquence) sans disposer de tous les critères
pertinents d'analyse pour le moyen et long terme.
• Données créées plus rapidement.
• Arrivent plus rapidement aux organisations.
• Doivent être traitées plus vite (en temps réel).
• Décision rapide sur les données que l’on désire garder.
• Pression pour convertir rapidement les données en décision
d’affaires.
• Les résultats livrés sont consommés plus rapidement.
Les deux « V » supplémentaires
Véracité (Veracity)
La qualité de la fiabilité et la confidence des données
Comment se trouver dans un déluge de hashtags ?
 Comment gérer les données partielles ou incomplètes ?
 Données bruitées, imprécises, prédictives…

La véracité répond à la question : « Est-ce qu'on peut faire confiance à la


donnée disponible ? Contient-elle suffisamment d'information ? »
Exemple :
• Génération des données par spambots
• Elections présidentielles de 2012 au Mexique avec de faux comptes twitter.
Conséquences 1/3 chefs d'entreprises ne font pas confiance aux données
qu'ils utilisent.
Valeur (Value)
• La valeur ajoutée des données ou des informations extraites
• Sans une réelle valeur ajoutée, ce n’est qu’un gaspillage de
ressources
IV. LES APPLICATIONS DU BIG DATA

• Les perspectives du traitement des big data sont énormes :


Nouvelles possibilités d'exploration de l'information diffusée par les médias
(climatiques, environnementales ou encore sociopolitiques, etc.).
Gestion des risques (commerciaux, assuranciels, industriels, naturels).
Phénomènes culturels, politiques, médecine (compréhension du
fonctionnement du cerveau, épidémiologie, écoépidémiologie...),
La météorologie et l'adaptation aux changements climatiques,
La gestion de réseaux énergétiques complexes (via les smartgrids ou un futur
"internet de l'énergie"),
L'écologie (fonctionnement et dysfonctionnement des réseaux écologiques,
des réseaux trophiques avec le GBIF par exemple), ou encore la sécurité et la
lutte contre la criminalité.
• Cibler et mieux comprendre les clients
• Optimiser et mieux comprendre les processus d’affaires
– Gestion de la chaîne d’approvisionnement
– Gestion des risques
• Sécurité des accès (analyse des requêtes du SI),
• Analyse de risque ou panne,
• Détection de fraude,
• Détection de tendances (analyse sémantique / sentiment analysis)
• real-time marketing,
• Consolidation des données clients (360°),
• Science et recherche
• Astrophysique
• Physique et chimie
• Sciences de la vie
• Science des matériaux
• Environnement
• Villes intelligentes et transport intelligent
• Finances
V. Les retombées Big Data : de nouveaux métiers

• Le Big Data a besoin de nouvelles compétences, il est donc normal de voir


apparaître de nouveaux rôles :
Nouveau métier à la mode (Data Scientist) : C'est être capable de transformer les
données en information utile.
Poste à double compétence car il est capable d’utiliser les outils informatiques du Big
Data (Python, R, …) et de comprendre les enjeux business de ses analyses.
Data Engineer : c’est l’informaticien, spécialiste du Big Data, qui va mettre
en œuvre tous les outils et solutions à destination des utilisateurs (utilisateur
final, data scientist, …).
Data Analyst (Statisticien) : lorsque les analyses sur les données sont plus
complexes, il faut alors faire appel à des statisticiens qui sont capables
d’implémenter de nouveaux algorithmes et définir de nouveau modèles.
• Chief Data Officer : Dans les grandes entreprises on nomme parfois
un directeur des données. Il est en charge des données de l’entreprise,
quelles soient internes ou externes :
-- gouvernance des données.
-- acquisition de nouvelles sources de données.
Mais son rôle principal est de monétiser les données de l’entreprise.
✓ Spécialiste TI : savoir gérer et transformer les données
✓ Geek/Hacker : savoir programmer, paramétrer et déployer des outils
(souvent sous Linux)
✓ Spécialiste HPC : le parallélisme est une clé de la réussite
✓ Gestionnaire : être capable d’indiquer les objectifs et de reconnaître
la valeur d’une information.
Les gains attendus
-- anticipation des enjeux stratégiques pour une meilleure utilisation des données internes et
externes,
-- anticipation des enjeux stratégiques pour une meilleure utilisation des données internes et
externes,
-- diversité des données collectées et des canaux de collecte,
-- constitution d’équipes de Data Scientists et autres «experts data»,
-- adoption de nouvelles technologies d’exploitation de la donnée,
-- meilleure prise en compte des enjeux de protection de la vie privée et des données à
caractère personnel dans l’exploitation des données clients.
-- Réduction des coûts
-- Accélération des décisions
-- Meilleure connaissance du marché et des concurrents
-- Automatisation des décisions
Réduire le Time To Market : Ceci permet de raccourcir le délai entre l’émergence d’une
idée et sa mise en œuvre.
Sécurité et le Big Data
• La sécurité avec le Big Data est rendue difficile :
• de multiples solutions composent une plateforme Big Data et il manque
encore des solutions globales de management,
• le principe même du Big Data est un système réparti sur plusieurs noeuds,
• hétérogénéité des solutions (stockage, traitements, analytics, indexation, ... ).
• De plus le Big Data est centrée sur les données et certaines sont
naturellement sensibles :
• données bancaires (PCI-DSS),
• données médicales,
• données personnelles.
Challenges de sécurité
• confidentialité des données
• contrôle des accès à la plateforme
• sécurisation des échanges
• audit.
• Utilisation du Cloud : où sont stockées les données (dans quel pays et donc sous
quelle réglementation ?)
• Sécurité des logiciels/protocoles utilisés : régulièrement des failles de sécurité
sont découvertes dans les produits et protocoles utilisés quotidiennement (java,
SSL, etc.), les solutions Big Data ne font pas exception.
• Respect de la vie privée : les solutions Big Data peuvent apporter une puissance
informative importante. Cette puissance doit respecter les libertés individuelles.
VI. Architecture

• Il n’existe pas de standard ou de normes Big Data : les solutions et les


architectures se multiplient.
• Aucune technologie ne permet de résoudre tous les types de problèmes
posés. Même dans un seul logiciel ou langage on trouve différents
modules, chacun traitant un axe à part.
• Pour utiliser les données stockées et obtenir quelque chose d'utile, on a
besoin de capacité de traitement et d'analyse.
• Un système big data est reconnu comme tel, s’il présente des
capacités particulières en matière de volume, de variété de données
et de vitesse de traitement.
• Aujourd’hui les entreprises pour améliorer leurs modèles de
connaissances et de prévisions, n’hésitent pas prendre en compte
plusieurs centaines de facteurs, et pour cela mettent en place de
nouveaux moyens d’analyse qui permettent de traiter de grands
volumes de données.
• Or le traitement de grands volumes de données est un défi pour les
infrastructures décisionnelles habituelles.
• Stocker de grands volumes n’est pas un problème, mais les exploiter
nécessite des architectures massivement parallèles, des entrepôts de
données tels que ceux proposés par Teradata par exemple, ou des «
solutions MapReduce » telles que celles d’Hadoop ou d’Aster Data.
• Ici le choix de la solution dépend de la variété des types de données à traiter et de la
vélocité attendue. En effet MapReduce est meilleur qu’une base de données relationnelle
pour traiter des données non structurées, et Hadoop est batch alors qu’Aster Data est
temps réel.
• Comme il n’y a pas de solution miracle, les grandes entreprises se dotent d’un mix de
moyens leur permettant de bénéficier des avantages des différents types de solutions.
• A partir du moment où l’on veut prendre en compte toutes sortes de données, des textes,
des données issues de capteurs divers, des données de géolocalisation, des données de
réseaux sociaux, des images, etc..., ces données ne se présentent pas sous une forme
parfaitement ordonnée et ne sont pas d’emblée prêtes pour une exploitation analytique.
Même les données issues du web ne se sont pas dès le départ parfaites.
• Une tâche courante des systèmes Big Data est de prendre en charge des données non ou
multistructurées et de les traiter pour les rendre consommables par des humains ou des
applications analytiques.
• Il y a trois ou quatre étapes pour mener à bien ce processus :
✓ Collecte et préparation de données →différentes sources
✓ Traitement et Stockage : →hadoop & Map Reduce, BD NoSQL,
✓ Analyse →outils d'analyse
✓ Visualisation
✓ Tirer des conclusions à partir des connaissances acquises.
Les principaux types de visualisation des données comprennent des
tableaux de bord, des plates-formes de visualisation de données
commerciales, mais aussi des graphiques et des tableaux simples qui
permettent de communiquer rapidement des idées.

Des patrons d’architecture Big Data sont proposés par les acteurs du marché
comme MapReduce créé par Google et utilisé dans Hadoop. Avec ce système, les
requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées en
parallèles (map). Les résultats sont ensuite rassemblés et récupérés (reduce).
VII. Les Technologies du Big Data
• Les Big Data offrent de nouvelles possibilités pour résoudre des
problématiques complexes.
– Hadoop & Map Reduce: traitement et stockage
• Ressources de calcul (quasi) illimitées
• Pas de préoccupation de mise à l’échelle
• S3, Hadoop Distributed File System
• Hadoop, Hive, Pig, Cascading, Cascalog, mrjob, Caffeine, S4, MapR, Acunu,
Flume, Kafka, Azkaban, Oozie, Greenplum.
– NoSQL:
• Plus nécessaire de connaître à l’avance les relations entre les éléments d’une
base de données.
• Databases : MongoDB, CouchDB, Cassandra, Redis, BigTable, Hbase,
Hypertable, Voldemort, Riak, ZooKeeper.
– Traitement dynamique des données (flux ou streaming):
• Émergence des applications "Machine-to-Machine" /objets connectés/
"Internet of Things" en streaming
• Outils : Kafka, spark, Storm,…
• Analytics (web, text, data, …) Pig, Mahout, Kafka, Cyfe, Text miner, Hive,
Oozi, AQL, Jaql,
– Visualisation : R, python, Tableau, D3, google chart, Fusion chart XT, Hightchart,
dataPlay,
Conclusion

• Collecte des données : Sources


• Stockage : Cloud Computing
• Traitement, transformation et analyse : varie suivant la nature de
données
• Visualisation: varie suivant la taille de l'utilisateur.

You might also like