You are on page 1of 17

Big Data

GL4 (Option Management des Systmes d'Information) - 2017

Chp1 : Introduction
Approche et Vocabulaire

Dr. Lilia SFAXI


Slide 1
www.liliasfaxi.wix.com /liliasfaxi
Faits
Introduction aux Big Data
Chaque jour, nous gnrons 2,5 trillions doctets de donnes
90% des donnes dans le monde ont t cres au cours des deux
dernires annes
90% des donnes gnres sont non structures
Source:
Capteurs utiliss pour collecter les informations climatiques
Messages sur les mdias sociaux
Images numriques et vidos publies en ligne
Enregistrements transactionnels dachat en ligne
Signaux GPS de tlphones mobiles

Donnes appeles Big Data ou Donnes Massives

2
Intrts
Introduction aux Big Data

1 /3 Chefs dentreprise prennent frquemment des


dcisions bases sur des informations en lesquelles
ils nont pas confiance, ou quils nont pas

1/2 Chefs dentreprise disent quils nont pas accs aux


informations dont ils ont besoin pour faire leur
travail

83 % Des DSI (Directeurs des SI) citent : Linformatique


dcisionnelle et analytique comme faisant partie
de leurs plans pour amliorer leur comptitivit

60 % Des PDG ont besoin damliorer la capture et la


comprhension des informations pour prendre des
dcisions plus rapidement

3
Sources
Introduction aux Big Data

Sources multiples: sites, bases de donnes, tlphones, serveurs:


Dtecter les sentiments et ractions des clients
Dtecter les conditions critiques ou potentiellement mortelles dans les
hpitaux , et temps pour intervenir
Prdire des modles mtorologiques pour planifier lusage optimal des
oliennes
Prendre des dcisions risques bases sur des donnes transactionnelles
en temps rel
Identifier les criminels et les menaces partir de vidos, sons et flux de
donnes
tudier les ractions des tudiants pendant un cour, prdire ceux qui vont
russir, daprs les statistiques et modles runis au long des annes
(domaine Big Data in Education )

4
Challenges
Introduction aux Big Data

Runir un grand volume de donnes varies pour trouver de nouvelles


ides

Capturer des donnes cres rapidement

Sauvegarder toutes ces donnes

Traiter ces donnes et les utiliser

5
Les 5 V
Introduction aux Big Data

Extraction dinformations et dcisions partir de donnes,


caractrises par les 5 V:
Volume Vitesse

Volume ( Volume ) -
-
Traoctets
Enreg. / Archives
-
-
Batch
Temps rl
- Transactions - Processus
- Tables, fichiers - Flot de donnes

Varit ( Variety )
Varit Valeur
5 Vs du
- Structures Big Data - Statistiques
- Non structures
Vitesse ( Velocity ) - Multi-facteur
-
-
vnements
Corrlations
- Probabilistes - Hypothtiques
- Confiance
- Authenticit
Vracit ( Veracity) - Origine, rputation
- Disponibilit
- Responsabilit

Vracit
Valeur (Value)

6
Volume
Introduction aux Big Data
Le prix de stockage des donnes a beaucoup diminu ces
30 dernires annes:
De $100,000 / Go (1980)
$0.10 / Go (2013)
Les lieux de stockage fiables (comme des SAN: Storage
Area Network) ou rseaux de stockage peuvent tre trs Volume Vitesse
coteux
Choisir de ne stocker que certaines donnes, juges - Traoctets - Batch
sensibles - Enreg. / Archives - Temps rl
- Transactions - Processus
Perte de donnes, pouvant tre trs utiles, comme les logs - Tables, fichiers - Flot de donnes

Comment dterminer les donnes qui mritent dtre


stockes? Varit Valeur
Transactions? Logs? Mtier? Utilisateur? Capteurs? 5 Vs du
Mdicales? Sociales?
- Structures Big Data - Statistiques
- Non structures - vnements
- Multi-facteur
Aucune donne nest inutile . Certaines nont juste pas - Probabilistes
- Corrlations
- Hypothtiques
encore servi. - Confiance
Problmes: - Authenticit
- Origine, rputation
Comment stocker les donnes dans un endroit fiable, qui - Disponibilit
soit moins cher - Responsabilit

Comment parcourir ces donnes et en extraire des Vracit


informations facilement et rapidement?

7
Varit
Introduction aux Big Data
Pour un stockage dans des bases de donnes ou
dans des entrepts de donnes, les donnes
doivent respecter un format prdfini.
La plupart des donnes existantes sont non-
structures ou semi-structures
Volume Vitesse
Donnes sous plusieurs formats et types
On veut tout stocker: -
-
Traoctets
Enreg. / Archives
-
-
Batch
Temps rl
Exemple : pour une discussion dans un centre -
-
Transactions
Tables, fichiers
- Processus
- Flot de donnes
dappel, on peut la stocker sous forme textuelle
pour son contenu, comme on peut stocker
lenregistrement en entier, pour interprter le ton Varit Valeur
5 Vs du
de voix du client - Structures Big Data - Statistiques
- Non structures
Certaines donnes peuvent paratre obsoltes, - Multi-facteur
-
-
vnements
Corrlations
mais sont utiles pour certaines dcisions: - Probabilistes - Hypothtiques
- Confiance
Exemple : Pour le transport de marchandise, on a - Authenticit
tendance choisir le camion le plus proche. Mais - Origine, rputation
parfois, ce nest pas la meilleure solution. -
-
Disponibilit
Responsabilit
Dautres problmes peuvent intervenir.
Besoin de : Donnes GPS, Plan de livraison du Vracit
camion, Circulation, Chargement du camion,
Niveau dessence

8
Vitesse
Introduction aux Big Data
Rapidit darrive des donnes
Vitesse de traitement
Les donnes doivent tre stockes
larrive, parfois mme des Volume Vitesse

Teraoctets par jour -


-
Traoctets
Enreg. / Archives
-
-
Batch
Temps rl
- Transactions - Processus
Sinon, risque de perte dinformations - Tables, fichiers - Flot de donnes

Exemple Varit Valeur


5 Vs du
Il ne suffit pas de savoir quel article - Structures Big Data - Statistiques
- Non structures
un client a achet ou rserv - Multi-facteur
-
-
vnements
Corrlations
- Probabilistes - Hypothtiques
Si on sait que vous avez pass plus - Confiance
de 5mn consulter un article dans -
-
Authenticit
Origine, rputation
une boutique dachat en ligne, il est -
-
Disponibilit
Responsabilit
possible de vous envoyer un email Vracit
ds que cet article est sold.

9
Vracit
Introduction aux Big Data
Cela fait rfrence au dsordre ou la
fiabilit des donnes. Avec laugmentation
de la quantit, la qualit et prcision se
perdent (abrviations, typos,
dformations, source peu fiable) Volume Vitesse
Les solutions Big Data doivent remdier - Traoctets - Batch
- Enreg. / Archives - Temps rl
cela en se rfrant au volume des donnes - Transactions - Processus
- Tables, fichiers
existantes - Flot de donnes

Ncessit dune (trs) grande rigueur Varit Valeur


5 Vs du
dans lorganisation de la collecte et le - Structures Big Data - Statistiques
- Non structures
recoupement , croisement , enrichissement - Multi-facteur
-
-
vnements
Corrlations
- Probabilistes
des donnes pour lever lincertitude et la - Confiance
- Hypothtiques

nature imprvisible des donnes -


-
Authenticit
Origine, rputation
introduites dans les modles mais aussi -
-
Disponibilit
Responsabilit
pour respecter le cadre lgal pour crer la
Vracit
confiance et garantir la scurit et
lintgrit des donnes.

10
Valeur
Introduction aux Big Data

Le V le plus important
Il faut transformer toutes les donnes Volume Vitesse
en valeurs exploitables: les donnes - Traoctets - Batch
sans valeur sont inutiles -
-
Enreg. / Archives
Transactions
-
-
Temps rl
Processus
- Tables, fichiers - Flot de donnes

Atteindre des objectifs stratgiques


Varit Valeur
de cration de valeur pour les clients 5 Vs du
- Structures Big Data - Statistiques
et pour lentreprise dans tous les -
-
Non structures
Multi-facteur
-
-
vnements
Corrlations
- Probabilistes - Hypothtiques
domaines dactivit - Confiance
- Authenticit
- Origine, rputation
- Disponibilit
- Responsabilit

Vracit

11
Approche Traditionnelle
Introduction aux Big Data
Les besoins mtier guident la conception de la solution

Le responsable mtier dfinit les besoins :


Quelles questions doit-on poser?

De nouvelles exigences
ncessitent une nouvelle
conception et construction IT conoit une solution avec un
ensemble de structures et
fonctionnalits

Le responsable mtier excute les


requtes pour rpondre aux questions
encore et encore

12
Approche Traditionnelle
Introduction aux Big Data

Approprie pour:

Des donnes structures


Oprations et processus rptitifs
Sources relativement stables
Besoins bien compris et bien cadrs

13
Approche Big Data
Introduction aux Big Data
Les sources dinformation guident la dcouverte crative

Le responsable mtier et IT
identifient les sources de donnes
disponibles

De nouvelles ides conduisent


lintgration de technologies
traditionnelles

Le responsable mtier dtermine les


questions poser en explorant les donnes
et relations entre elles IT fournit une plateforme
qui permet une exploration
crative de toutes les
donnes disponibles

14
Approche Big Data vs Approche Traditionnelle
Introduction aux Big Data

Entrept de Donnes Plateforme Big Data

La question nest pas :


Dois-je choisir entre
lapproche classique et
lapproche Big Data?
Intgration
Mais plutt:
Comment les faire
fonctionner ensemble?

Sources Traditionnelles Nouvelles Sources

15
Approche Big Data vs Approche Traditionnelle
Introduction aux Big Data
Approche Traditionnelle Approche Big Data
Analyse Structure et Rpte Analyse Itrative et Exploratoire

Responsables Mtier Responsables IT

Dterminent quelles Fournissent une plateforme


questions poser pour permettre la
dcouverte crative

Responsables IT Responsables Mtier

Structurent les donnes Explorent la plateforme pour


pour rpondre ces dterminer quelles
questions questions poser

16
Sources
Introduction aux Big Data

Cours
Big Data Analytics Lesson 1: What is Big Data , IBM, Big Data University
Intro to Hadoop and MapReduce , Coursera, Udacity
Articles
Bernard Marr, Big Data: The 5 Vs Everyone Must Know , LinkedIn

17