Professional Documents
Culture Documents
3A BD Ch1 BigDataIntro
3A BD Ch1 BigDataIntro
Course Information
2023 - 2024 •
BI&A: …
2 H. Benbrahim
1 2
Schedule Objectives Organization Schedule Objectives Organization
• The course is focussing on theory and applying some technologies P1: Module 2 - Big Data Analy cs
Lectures
• Theory Introduc on to Big Data Analy cs
• Big Data infrastructure (Hadoop, HDFS, MapReduce …) Scalable Machine Learning Algorithms
Streaming Analy cs
• Analy cs, Advanced Topics Use cases of Big Data Analy cs (Recommenda on systems, Graph Analy cs..)
• Applying technology Labs
• Learning about various state-of-the art technology P2: Module 3 - Big Data Project
Project
3
• Spark H. Benbrahim 4 H. Benbrahim
3 4
ti
ti
ti
ti
ti
ti
ti
ti
ti
ti
ti
ti
ti
Schedule Objectives Organization
Grading policy
- P1: Module 1:
• Final wri en exam (lectures + labs)
- P1: Module 2:
• Final wri en exam (lectures + labs)
- P2: Module 3:
• Project report Par: Houda Benbrahim
• Project presenta on
2023 - 2024
5 H. Benbrahim
5 6
tt
tt
ti
Section I: Big Data?
Le plan Chapter I: Introduction to Big Data
Le plan
Section II: Big Data Vs
Chapter II: HADOOP, HDFS, MapReduce & YARN Section III: Big Data issues
Big Data Engineering Chapter I:
Part I Introduction to Big Data
7 8
Section I: Big Data?
Le plan
Big Data, buzzword ?
Section II: Big Data Vs
• U lisé pour la première fois par John Mashey, scien que en chef à la retraite chez
Silicon Graphics, au milieu des années 90 pour désigner la manipula on et l'analyse
Section III: Big Data issues d'ensembles de données massives.
9 10
ti
ti
fi
ti
Big Data Hype, Hype ? Big Data Hype, 2013
11 12
11 12
ti
ti
ti
ti
ti
Big Data Hype, 2014 Big Data Hype, 2015
13 14
13 14
Big Data Hype, 2017 Data Science and Machine Learning Hype, 2021
15 16
15 16
Big? Data? Ere Big Data
Avancées technologiques
• Les données existent depuis toujours!!
• Puissance de calcul
• Quelles nouveautés dans l’ ère du big
data? • Networking
• Avancées technologiques • Stockage
• Le taux de croissance des données • Commodity hardware
H. Benbrahim H. Benbrahim
17 18
Ere Big Data Ere Big Data
Avancées technologiques: Puissance de calcul Avancées technologiques: Networking
19 20
Ere Big Data Ere Big Data
Avancées technologiques: Stockage Avancées technologiques: Stockage
H. Benbrahim H. Benbrahim
21 22
Ere Big Data Ere Big Data
Avancées technologiques: Commodity Hardware Le taux de croissance des données
H. Benbrahim H. Benbrahim
23 24
Ere Big Data Ere Big Data
Le taux de croissance des données Le taux de croissance des données
25 26
Ere Big Data Ere Big Data
Le taux de croissance des données Le taux de croissance des données
H. Benbrahim H. Benbrahim
27 28
Ere Big Data Ere Big Data
Le taux de croissance des données Le taux de croissance des données, 2020
H. Benbrahim H. Benbrahim
29 30
Ere Big Data Big Data
Le taux de croissance des données, 2023 Definition
H. Benbrahim H. Benbrahim
31 32
Big Data Big Data
Definition Definition
"Big Data refers to the dynamic, large and disparate volumes of data being created by "Collection of data from traditional and digital sources inside and outside a company that
people, tools and machines. It requires new, innovative, and scalable technology to represent a source of ongoing discovery and analysis."
collect, host and analytically process the vast amount of data gathered in order to derive
real-time business insights that relate to consumers, risk, profit, performance,
"Le Big Data est une une collection de données provenant de sources traditionnelles et
productivity management and enhanced shareholder value. "
numériques à l'intérieur et à l'extérieur d'une entreprise qui représentent une source de
découverte et d'analyse. "
"Le Big Data fait référence aux volumes de données dynamiques, volumineux et ~ Lisa Arthur - Forbes
disparates créés par les personnes, les outils et les machines. Il nécessite une
technologie nouvelle, innovante et évolutive pour collecter, héberger et traiter
analytiquement la grande quantité de données collectées afin de tirer des informations
commerciales en temps réel relatives aux consommateurs, aux risques, aux bénéfices,
aux performances, à la gestion de la productivité et à l'amélioration de la valeur
actionnariale."
H. Benbrahim H. Benbrahim
~ Ernst and Young
33 34
Section I: Big Data?
Le plan
Big Data
Section II: Les Vs du Big Data
Definition
36
H. Benbrahim H. Benbrahim
35 36
Caractéristiques du Big Data Caractéristiques du Big Data
Volume
37 38
Caractéristiques du Big Data Caractéristiques du Big Data
Vélocité Variété
39 40
Caractéristiques du Big Data Caractéristiques du Big Data
Véracité Valeur
• i.e. L'incertitude des données. • Que pouvons-nous faire avec ces données?
• La plupart des données disponibles, par exemple • Quelle est la vision?
sur Internet, sont générées par les utilisateurs !!!
• i.e. capacité et besoin de transformer les données
• Combien ferons nous confiance à ces données? en valeur.
• Combien sont elles vrai? • La valeur n'est pas seulement le profit. Il peut s'agir
d'avantages médicaux ou sociaux, ou d'un client,
• Il suffit de penser twitter ou facebook? Allons-nous faire confiance aveuglément?
d'un employé ou d’une satisfaction personnelle.
• La qualité et la fiabilité des données sont moins contrôlable ...
• 1 dirigeant d'entreprise sur 3 Ne fait pas confiance aux informations qu’il utilise pour
prendre des décisions
• La mauvaise qualité des données coûte environ 3,1 milliards de dollars par an à
l'économie américaine.
H. Benbrahim H. Benbrahim
41 42
Caractéristiques du Big Data Caractéristiques du Big Data
Autres Vs Autres Vs
• Variabilité? • Viabilité ?
• i.e. Le contexte des données. • les données sont-elles pertinentes pour le cas d'utilisation actuel?
• Les mêmes données peuvent avoir des interprétations différentes dans des
contextes différents ....
• Volatilité ?
• à quelle fréquence les données changent-elles?
• Visualisation?
• i.e. Faire parler les données ...
• Vulnérabilité ?
• raconter l'histoire des données à l'aide des graphiques, des arbres, des
• pouvons-nous sécuriser les données?
cartes ...
H. Benbrahim H. Benbrahim
43 44
Section I: Big Data?
Le plan
Caractéristiques du Big Data
Autres Vs Section II: Les Vs du Big Data
46
H. Benbrahim H. Benbrahim
45 46
Les défis du Big Data Les défis du Big Data
• Problèmes de traitement • la technologie actuelle du disque a des limites (il est 80 To par disque) ==> donc
1 exabyte nécessitera x disques ???
• Qualité Vs Quantité
• Même si nous pouvons avoir un seul système informatique .. accès à ces
• Propriété des données données va submerger les réseaux de communication actuels ...
• Conformité et sécurité
• … • Problèmes de gestion
• résolution des problèmes d'accès, d'utilisation, de mise à jour, ...
H. Benbrahim H. Benbrahim
47 48
Les défis du Big Data Les défis du Big Data
• Qualité Vs Quantité
• Conformité et sécurité
• Quelle quantité de données est nécessaire pour extraire une bonne
connaissance de celles-ci? • dans les domaines de la santé et les médias sociaux, les données sont
accumulées sur les individus.
• quantité suffisamment importante de données de qualité ...
• Il y a une crainte que certaines organisations savent trop sur les individus !!!
• la question clé est de savoir combien d'informations ou de données, nous
voulons garder privé ???
H. Benbrahim H. Benbrahim
• …
49 50
Section I: Big Data?
Le plan Applications de Big Data
Section II: Les Vs du Big Data
51
H. Benbrahim H. Benbrahim
51 52
Applications de Big Data Applications de Big Data
53 54
Applications de Big Data Applications de Big Data
55 56
Applications de Big Data Applications de Big Data
H. Benbrahim H. Benbrahim
57 58
Applications de Big Data Applications de Big Data
H. Benbrahim H. Benbrahim
59 60
Applications de Big Data Data: Sources
H. Benbrahim H. Benbrahim
61 62
é
é
Data: Aspects Ethiques Data: Aspects Ethiques
Ex.
• Ethiques des données ?
• ce sont les obligations morales liées à la collecte, à la protection et à l'utilisation • Les cartes de fidélité des supermarchés:
d'informations personnellement identifiables et la manière dont elles affectent
• permettre aux clients de réaliser des économies.
les individus.
• Mais: Recueillir des données riches pour essayer de vendre plus de produits.
• ça pose les question suivantes : "Est-ce la bonne chose à faire ?" et "Pouvons-
nous faire mieux ?". • Le prix à payer pour être plus à l'abri des attaques terroristes est une surveillance
invasive pour tous les membres de la société
• L'éthique des données a une grande importance pour toute personne qui manipule
des données, et doit toutefois en connaître les principes de base.
• La compréhension de l'éthique des données permet de protéger la sécurité des
clients et éviter les problèmes juridiques aux entreprises.
H. Benbrahim H. Benbrahim
63 64
Data: Aspects Ethiques, les principes Data: Aspects Ethiques, les principes
• Propriété: • Transparence
• Est ce qu'une personne est propriétaire de ses informations personnelles? • les personnes concernées ont le droit de savoir comment leurs données sont
collectées, stockeées et utilisées.
• Tout comme il est considéré comme un vol de prendre un objet qui ne vous
appartient pas, il est illégal et contraire à l'éthique de collecter les données • Ex.
personnelles d'une personne sans son consentement.
• une entreprise qui a décidé de mettre en œuvre un algorithme pour
• Moyens courants d'obtenir le consentement: personnaliser l'expérience sur le site web en fonction des habitudes
d'achat des individus et de leur comportement sur le site.
• les accords écrits signés,
• rédiger une politique expliquant que les cookies sont utilisés pour suivre le
• les politiques de confidentialité numérique qui demandent aux utilisateurs
comportement des utilisateurs et que les données collectées seront
d'accepter les conditions générales d'une entreprise,
stockées dans une base de données sécurisée et entraîneront un
• les fenêtres pop-up avec cases à cocher qui permettent aux sites web de algorithme qui fournira une expérience personnalisée du site web.
suivre le comportement en ligne des utilisateurs à l'aide de cookies.
• L'utilisateur a le droit d'avoir accès à ces informations afin de pouvoir
• On ne suppose jamais qu'un client est d'accord pour qu’on collecte ses données décider d'accepter les cookies du site ou de les refuser.
H. Benbrahim H. Benbrahim
65 66
Data: Aspects Ethiques, les principes Data: Aspects Ethiques, les principes
67 68
Data: Aspects Légaux et Juridiques
Big Data, Avenir?
• La protection des données personnelles
• Les obligations légales des entreprises (anonymisation, droit à l’oubli)
• Big Data et réglementation CNIL
H. Benbrahim H. Benbrahim
69 70