Big Data, Kesako ?

Christophe Aran, Consultant décisionnel

Référence : ASO-XXX Version : 1.0 Du : 06/11/2012

www.groupeastek.com
Modèle : ASO-2007-M_PPT-0012 v2.1

Sommaire

www.groupeastek.com

Contexte actuel Définition du Big Data L’écosystème Hadoop Les intérêts business du Big Data Un cas concret : Karma chez Air France Conclusion

Modèle : ASO-2007-M_PPT-0012 v2.1

Un déluge de données
YouTube reçoit 24h de vidéo toutes les minutes 500 téraoctets de données transitent chaque jour sur Facebook 140 millions de tweets par jour 6 milliards de téléphones mobiles en activité en 2012 Des pics de 22 commandes à la seconde chez Spartoo pendant les soldes
www.groupeastek.com

90% des données créées dans le monde l’ont été au cours des 2 dernières années
Modèle : ASO-2007-M_PPT-0012 v2.1

Et une collecte de données incessantes
Données commerciales
• Transactions

Informations Client
• CRM • Dossiers médicaux

Informations Produits
• Codes barres • RFID

Web
www.groupeastek.com

• Pages • Journaux d’accès

Informations non structurées
• Réseaux sociaux • GPS • Mobile

Modèle : ASO-2007-M_PPT-0012 v2.1

Les limites des SGBD actuels

Coût du stockage Scalabilité Performance Format des données Schémas figés
www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Le besoin

Système qui peut gérer de gros volumes de données Scalable Robuste Haute disponibilité Economique
www.groupeastek.com

Nouvelle approche

Modèle : ASO-2007-M_PPT-0012 v2.1

Définition du Big Data
« Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs pour y répondre »
Gartner

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Le concept des 3 V

Volume
Les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets.

Vitesse
Parfois, 2 minutes c'est trop. Pour la détection de fraudes par exemple, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par l’entreprise afin d'en tirer le maximum de valeur.

Valeur
www.groupeastek.com

Variété
Le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, fichiers journaux, etc.).
Modèle : ASO-2007-M_PPT-0012 v2.1

Hadoop, kesako ?
Inspiré de publications Google (2004)
Google Filesystem Google Map Reduce

www.groupeastek.com

Créé par Doug Cutting, salarié chez Yahoo Framework Open Source écrit en Java Géré sous l'égide de la fondation Apache Communauté très active, développement rapide Un périmètre qui s’élargit constamment Orienté « batch »

Modèle : ASO-2007-M_PPT-0012 v2.1

L’écosystème Hadoop

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

HDFS
Système de fichiers distribué Traitement de volumes de données considérables Découpage des fichiers par blocs Fonctionne sur des serveurs “low cost” (au minimum 3) Fault Tolerant Scalable NameNode : gestion des métadonnées DataNode : stockage des données

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Map Reduce
Calcul distribué Input | Map() | Sort | Reduce() | Output JobTracker : gestion des jobs TaskTracker : exécution des tâches Map() et Reduce() sur chaque noeud

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (1/2) : stockage dans le HDFS
Notre fichier sera réparti en un ensemble de blocs répliqués dans les nœuds du HDFS. La réplication des blocs est configurable, dans notre exemple elle est de 3.

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (2/2) : comptage des mots

www.groupeastek.com

Parallélisation des traitements sur l’ensemble des nœuds du HDFS grâce à Map Reduce
Modèle : ASO-2007-M_PPT-0012 v2.1

Pig vs Hive
Objectif commun : s’abstraire de la complexité de Map/Reduce

PIG • Langage de script • Né chez Yahoo • Flexible / simple • ETL • Mise en œuvre UDF
www.groupeastek.com

HIVE • Pseudo-SQL • Né chez Facebook • Rigide / Connu • Interrogation • JDBC / ODBC

Modèle : ASO-2007-M_PPT-0012 v2.1

Hbase et le NoSQL
Montée en puissance du mouvement NoSQL
Pour contourner les contraintes du modèle relationnel Pas de jointures, très flexible Forte scalabilité horizontale Une éclosion de différents paradigmes

HBase
Implémentation open source de Google BigTable Basé sur HDFS (non obligatoire) Base de données orientée colonnes En concurrence avec Cassandra

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Exemple : modélisation d’un fichier Achat
Format : (Table, RowKey, Family, Column, Timestamp) -> Value

Création d’une table :
create ‘achat’, {NAME => ‘acheteur’}, {NAME => ‘produit’, {NAME => ‘achat’}

Insertion d’une ligne :
put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’ put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

Suppression d’une ligne :
delete 'achat', 1, 'achat:date‘ deleteall 'achat', 1
www.groupeastek.com

Lecture d’un enregistrement :
get 'achat', 1 get 'achat', 1, {COLUMN => 'produit:marque'}

Modèle : ASO-2007-M_PPT-0012 v2.1

Et pour l’intégration au SI existant
Sqoop
• Import / Export de données • Import automatique • Prise en charge de nombreuses bases relationnelles

Flume
• Collecte de logs • Data streaming
www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

La solution Big Data de Talend
Lancement de Talend Open Studio for Big Data Simplification des développements Big Data
• Environnement de développement graphique • Connecteurs Big Data prêts à l’emploi

Depuis Octobre 2012, support des bases de données NoSQL et connecteurs disponibles pour :
www.groupeastek.com

• HBase • Cassandra • MongoDB

Modèle : ASO-2007-M_PPT-0012 v2.1

Les intérêts business du Big Data
Enfin un supercalculateur à la disposition de tous De nouveaux horizons jusque-là inexplorés
• CRM : segmentation en exploitant les goûts et sentiments des clients/prospects récoltés sur les réseaux sociaux • Finance : contrôle en temps réel des transactions frauduleuses ou à risques • RH : exploitation des données LinkedIn (par exemple) pour anticiper la volonté de départ d’un collaborateur clé • Logistique : optimisation des flux de transport en temps réel en fonction du trafic routier • …

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Un cas concret : Karma chez Air France
Karma : Revenue Management AF/KLM Composants Hadoop utilisées
• HDFS / Map Reduce / Sqoop / Pig • Développement en interne : scheduler + interface web

Mise en Production courant 2013 Quelques chiffres :
• • • • Un cluster de 90 serveurs pour déployer Hadoop 80 développeurs à Valbonne pour l’écriture des jobs MR 130 jobs déjà développés, 400 d’ici 2 ans 7h de traitement batch quotidien pour lancer les jobs MR et mettre à jour les bases Oracle • 300 analystes à Roissy pour analyser les données
Modèle : ASO-2007-M_PPT-0012 v2.1

www.groupeastek.com

Conclusion
Un bol d’oxygène pour le traitement des données volumineuses et pour la BI en particulier Limites
• Un écosystème évoluant très rapidement, nécessite encore du temps pour stabiliser les différents modules • Si les volumes sont faibles (inférieur à 10To), un SGBD classique suffira la plupart du temps

A suivre
www.groupeastek.com

• • • •

Google Dremel / Cloudera Impala / Apache Drill Positionnement des éditeurs « traditionnels » Google, futur acteur majeur de la BI ? Un nouveau métier : Data Scientist

Modèle : ASO-2007-M_PPT-0012 v2.1

Pour plus d’informations
http://hadoop.apache.org/ http://pig.apache.org/ http://hive.apache.org/
https://developers.google.com/bigquery/ http://code.google.com/edu/parallel/mapreducetutorial.html
www.groupeastek.com

http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball)
Modèle : ASO-2007-M_PPT-0012 v2.1

Merci. Des questions ?

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Annexe 1 : un autre exemple Map Reduce
Jeu de données :

Algorithme MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte :

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1

Annexe 2 : une architecture BI transformée

www.groupeastek.com

Modèle : ASO-2007-M_PPT-0012 v2.1