Welcome to Scribd!

Skip carousel

Visualizing big data in Spark

Uploaded by

Ozioma Ihekwoaba

0% found this document useful (0 votes)

13 views17 pages

Visualizingbigdatainthebrowserusingspark 150325004956 Conversion Gate01

Original Title

Visualizingbigdatainthebrowserusingspark 150325004956 Conversion Gate01

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Visualizingbigdatainthebrowserusingspark 150325004956 Conversion Gate01

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

13 views17 pages

Visualizing big data in Spark

Uploaded by

Ozioma Ihekwoaba

Visualizingbigdatainthebrowserusingspark 150325004956 Conversion Gate01

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 17

Search inside document

Visualizing big data in the browser

using Spark
Hossein Falaki @mhfalaki
Spark Summit East March 18, 2015
Exploratory Visualization
Critical part of data analysis
William S. Cleveland

Put visualization back in the normal workflow of data analysis

regardless of data size.
Interactive
Collaborative
Reproducible

2
Expository Visualization
Communication is often the bottleneck in data science,
and a graph is worth a thousand words.

Control over details

Shareable

3
Requirements

Interactive
Collaborative
Shareable } Use the browser

}
Reproducible
Control over details Use visualization libraries

4
Visualization as programming

For complex tasks point and click may not be enough

Best expressed with a grammar (API)
Scripts are reproducible
Control over all details
Data scientists are already familiar with these tools

D3.js, Three.js, matplotlib, ggplot, Bokeh, Vincent,

5
Do it in the browser
Output of these tools can be readily used on the web
(PNG, SVG, Canvas, WebGL)
No need to transfer data and results
Browser is conducive to collaboration (e.g., Notebooks)
Separating data manipulation from rendering enables users
to freely choose the best tool for each job

6
Challenges with big data visualization

1.Manipulating large data can take a long time

2.We have more data points than pixels

Apache Spark can help solve both problems

7
Challenges

1. Manipulating large data can take a long time

> Memory
> CPU

8
Reducing latency: caching
Take advantage of memory and storage hierarchy

Serialized storage levels (for memory)

Memory & GC tuning

9
Reducing latency: parallelism

Increase number of CPUs

> Get more executors with Mesos or Yarn
> Click a button to increase cluster size in DBC

Control level of parallelism for map and reduce tasks

Configure spark locality if needed

10
Challenges

1. Manipulating large data can take a long time

2. We have more data points than possible pixels

> Summarize
> Model
> Sample

11
More data than pixels? Summarize

Extensively used by BI tools

> Aggregation
> Pivoting
Most data scientists nightly jobs
summarize data

12
More data than pixels? Model
MLLib supports a large (and growing)
set of distributed algorithms
Clustering: k-means, GMM, LDA
Classification and regression:
LM, DT, NB
Dimensionality reduction: SVD, PCA
Collaborative filtering: ALS
Correlation, hypothesis testing
13
More data than pixels? Sample
Extensively used in statistics

Spark offers native support for:

Approximate and exact sampling
Approximate and exact stratified
sampling

Approximate sampling is faster

and is good enough in most cases
14
Demo

15
Summary
Using Spark we can extend interactive visualization of large data

Reduce interaction latency to seconds

> Cache data in memory
> Increase parallelism

To visualize millions of points in the browser

> Summarize
> Model
> Sample
16
Visualizing big data in the browser
using Spark

Dataflow and Reactive Programming Systems
From Everand
Dataflow and Reactive Programming Systems
Matt Carkci
No ratings yet
Week 02
Document115 pages
Week 02
muhammad shoaib
No ratings yet
Interactive Visual Data Exploration With Spark in Databricks Cloud
Document26 pages
Interactive Visual Data Exploration With Spark in Databricks Cloud
aissamemi
No ratings yet
Welcome To The New Era of Cloud Computing: The Web Is Replacing The Desktop
Document36 pages
Welcome To The New Era of Cloud Computing: The Web Is Replacing The Desktop
freakedvicky
No ratings yet
Scale Perf Best Practices
Document39 pages
Scale Perf Best Practices
Ha Nguyen
No ratings yet
Enterprise Data Storage and Analysis On Spark
Document34 pages
Enterprise Data Storage and Analysis On Spark
Claudiu Purdel
No ratings yet
How Is Bigdata Handled in Kaggle?: 17Cp006-Leenanci Parmar 17CP012-DHRUVI LAD
Document18 pages
How Is Bigdata Handled in Kaggle?: 17Cp006-Leenanci Parmar 17CP012-DHRUVI LAD
Darshan Tank
No ratings yet
Cloud Computing: The Sun Always Shines Above The Clouds."
Document15 pages
Cloud Computing: The Sun Always Shines Above The Clouds."
Chandrashekhar Katagi
No ratings yet
Sesi 2 Manajemen Big Data
Document46 pages
Sesi 2 Manajemen Big Data
alpaomega
No ratings yet
Future of Data Sciences With Respect To HCI
Document35 pages
Future of Data Sciences With Respect To HCI
Fatima Arif
No ratings yet
1_introduction_to_big_data_management_and_processing
Document42 pages
1_introduction_to_big_data_management_and_processing
tranngocbaooooo12062003
No ratings yet
Authors Seema Maitreya, C.K. Jhab
Document23 pages
Authors Seema Maitreya, C.K. Jhab
Ian Ramos
No ratings yet
Data Glossary - Michael Dillon
Document11 pages
Data Glossary - Michael Dillon
Fuzuli Nagisoylu
No ratings yet
Unit No. 4
Document67 pages
Unit No. 4
vishal phule
No ratings yet
Choosing Your Database
Document21 pages
Choosing Your Database
chitraalavani
No ratings yet
M1 - Introduction To Data Engineering
Document65 pages
M1 - Introduction To Data Engineering
Edgar Sanchez
No ratings yet
EECS6893 BigDataAnalytics Lecture1
Document58 pages
EECS6893 BigDataAnalytics Lecture1
paranoea911
No ratings yet
DC - Co 1 All in 1 PDF
Document197 pages
DC - Co 1 All in 1 PDF
minni
No ratings yet
Chapter 1
Document40 pages
Chapter 1
SANG VÕ NGỌC
No ratings yet
Top Graph Databases: JanusGraph, Neo4j, DGraph & DataStax
Document2 pages
Top Graph Databases: JanusGraph, Neo4j, DGraph & DataStax
Urickel Sogna
No ratings yet
Tensorflow PDF
Document35 pages
Tensorflow PDF
martinez
No ratings yet
BD Merged
Document330 pages
BD Merged
Aman CSE050
No ratings yet
CassandraTraining v3.3.4
Document183 pages
CassandraTraining v3.3.4
Ratika Miglani Malhotra
100% (1)
Bigdata Overview PDF
Document98 pages
Bigdata Overview PDF
manindra1konda
No ratings yet
Big Data
Document25 pages
Big Data
VIJAYA PRABA P
No ratings yet
DataAnalytic-03 - Data Analytics Implementation
Document37 pages
DataAnalytic-03 - Data Analytics Implementation
kadnan
No ratings yet
BDA Module1
Document64 pages
BDA Module1
Nidhi Srivastava
No ratings yet
Zero Lecture: Big Data Analytics Lab BCA04206 From: Megha Garg
Document19 pages
Zero Lecture: Big Data Analytics Lab BCA04206 From: Megha Garg
Megha Garg
No ratings yet
BDA - Lecture 3
Document17 pages
BDA - Lecture 3
rumman hashmi
100% (1)
VMW Datasheet Greenplum
Document2 pages
VMW Datasheet Greenplum
JhonnyMoreno
No ratings yet
ECS781P 12 Serverless
Document23 pages
ECS781P 12 Serverless
Yen-Kai Cheng
No ratings yet
Lecture 1.1 - Introduction to DE
Document27 pages
Lecture 1.1 - Introduction to DE
zakiamine97
No ratings yet
TopDev - High Performance and Scalability Database Design - V2.1
Document52 pages
TopDev - High Performance and Scalability Database Design - V2.1
Phan Minh Duc
No ratings yet
4-Overview of Big Data Tools
Document25 pages
4-Overview of Big Data Tools
Wong pi wen
No ratings yet
Challan Form
Document72 pages
Challan Form
so fd
No ratings yet
Rubrik Converged Data Management Tech Overview and How It Works White Paper
Document8 pages
Rubrik Converged Data Management Tech Overview and How It Works White Paper
santosh
No ratings yet
MongoDB 3.4 Overview - Mission Critical Apps, Multimodel, Modernized Tooling
Document34 pages
MongoDB 3.4 Overview - Mission Critical Apps, Multimodel, Modernized Tooling
Diganta Kumar Gogoi
No ratings yet
HADOOP
Document43 pages
HADOOP
MUSHTAQ AHAMED
No ratings yet
Big Data_cloud_AI
Document45 pages
Big Data_cloud_AI
sumit15sks
No ratings yet
Greplin On Thousands of Indexes in The Cloud at Lucene Revolution 2011
Document11 pages
Greplin On Thousands of Indexes in The Cloud at Lucene Revolution 2011
lucidimagination
No ratings yet
Tutorial No 1 (Solved)
Document2 pages
Tutorial No 1 (Solved)
mmed68003
No ratings yet
Big Data
Document29 pages
Big Data
Ananya Khanna
No ratings yet
Bda - M1
Document64 pages
Bda - M1
Chandan A H
No ratings yet
Deep Learning With Databricks: Srijith Rajamohan, Ph.D. John O'Dwyer
Document38 pages
Deep Learning With Databricks: Srijith Rajamohan, Ph.D. John O'Dwyer
NiharikaNic
No ratings yet
TigerGraph Buyers Guide Part 1
Document8 pages
TigerGraph Buyers Guide Part 1
1977am
No ratings yet
Bdhs - Ebook
Document970 pages
Bdhs - Ebook
krishna vamsi
No ratings yet
Systemdesign
Document36 pages
Systemdesign
2018pgicsankush10
No ratings yet
Lesson 1
Document26 pages
Lesson 1
Ahmed Adel
No ratings yet
02 - Lecture #2
Document29 pages
02 - Lecture #2
Fatma mansour
No ratings yet
DSCI 5350 - Introduction to Hadoop Architecture
Document54 pages
DSCI 5350 - Introduction to Hadoop Architecture
Praz
No ratings yet
Nosql What Does It Mean
Document8 pages
Nosql What Does It Mean
nadeem
No ratings yet
Modern Database Systems: Team Members
Document16 pages
Modern Database Systems: Team Members
Saad Mohamed Saad
No ratings yet
Introduction To Data Science
Document11 pages
Introduction To Data Science
pjmmag
No ratings yet
E2 E3 Infosphere Datastage - Introduction To The Parallel Architecture
Document36 pages
E2 E3 Infosphere Datastage - Introduction To The Parallel Architecture
RM
No ratings yet
Cluster Basics
Document34 pages
Cluster Basics
Jay Nagwani
No ratings yet
Overview of Physical Database Design Methodology
Document5 pages
Overview of Physical Database Design Methodology
affi
No ratings yet
Dbms
Document14 pages
Dbms
Deekshita What about the second layer
No ratings yet
Data Warehousing Part C
Document5 pages
Data Warehousing Part C
sneha kotawadekar
No ratings yet
A Guide To Best Practices: Putting The Data Lake To Work
Document12 pages
A Guide To Best Practices: Putting The Data Lake To Work
Kimoon Kim
No ratings yet
4 Zos PDF
Document29 pages
4 Zos PDF
jlc1967
No ratings yet
Architecting Petabyte-Scale Analytics by Scaling Out Postgres On Azure With Citus
Document32 pages
Architecting Petabyte-Scale Analytics by Scaling Out Postgres On Azure With Citus
Ozioma Ihekwoaba
No ratings yet
Sample SLA Templates PDF
Document14 pages
Sample SLA Templates PDF
Ozioma Ihekwoaba
100% (2)
Part3 BinaryChoice Inference
Document71 pages
Part3 BinaryChoice Inference
Ozioma Ihekwoaba
No ratings yet
Integrating PM SM PDF
Document15 pages
Integrating PM SM PDF
Ozioma Ihekwoaba
No ratings yet
What's New in Spring Cloud?: Oleg Zhurakousky Olga Maciaszek-Sharma
Document36 pages
What's New in Spring Cloud?: Oleg Zhurakousky Olga Maciaszek-Sharma
Ozioma Ihekwoaba
No ratings yet
Better APIs Faster Tests and More Resilient Systems With Spring Cloud Contract 1
Document79 pages
Better APIs Faster Tests and More Resilient Systems With Spring Cloud Contract 1
Ozioma Ihekwoaba
No ratings yet
2012 Solarflare Openonload Performance Brief 10
Document11 pages
2012 Solarflare Openonload Performance Brief 10
Ozioma Ihekwoaba
No ratings yet
Accelerating Electronic Trading: Mellanox Adapter Cards
Document2 pages
Accelerating Electronic Trading: Mellanox Adapter Cards
Ozioma Ihekwoaba
No ratings yet
Survival Data Mining For Customer Insight: Prepared By: Gordon S. Linoff Data Miners June 2004
Document10 pages
Survival Data Mining For Customer Insight: Prepared By: Gordon S. Linoff Data Miners June 2004
awesomelycrazy
No ratings yet
Vignesh Sukumar SVCC 2012
Document25 pages
Vignesh Sukumar SVCC 2012
Ozioma Ihekwoaba
No ratings yet
Mobius
Document10 pages
Mobius
Ozioma Ihekwoaba
No ratings yet
Big Data Media 2398958
Document27 pages
Big Data Media 2398958
Ozioma Ihekwoaba
No ratings yet
Apache Big Data Europe Dashdb Final2
Document19 pages
Apache Big Data Europe Dashdb Final2
Ozioma Ihekwoaba
No ratings yet
Flink Batch Basics
Document37 pages
Flink Batch Basics
Ozioma Ihekwoaba
No ratings yet
Real Time Analytics With Apache Kafka and Spark: @rahuldausa
Document54 pages
Real Time Analytics With Apache Kafka and Spark: @rahuldausa
Ozioma Ihekwoaba
No ratings yet
Reactivestreams 140507092422 Phpapp01
Document60 pages
Reactivestreams 140507092422 Phpapp01
Andres Tuells Jansson
No ratings yet
Big Data Retail 2398957
Document25 pages
Big Data Retail 2398957
Ozioma Ihekwoaba
No ratings yet
CDR Sample Data Model
Document24 pages
CDR Sample Data Model
Mani Tiwary
No ratings yet
Churn Modeling For Mobile Telecommunicationsnewptt 120220124603 Phpapp02
Document21 pages
Churn Modeling For Mobile Telecommunicationsnewptt 120220124603 Phpapp02
Ozioma Ihekwoaba
No ratings yet
Big Data Oil Gas 2515144 PDF
Document24 pages
Big Data Oil Gas 2515144 PDF
Tim Clarke
No ratings yet
Improving Manufacturing Performance With Big Data: Architect's Guide and Reference Architecture Introduction
Document23 pages
Improving Manufacturing Performance With Big Data: Architect's Guide and Reference Architecture Introduction
Ozioma Ihekwoaba
No ratings yet
Defining The Big Data Architecture Framework
Document55 pages
Defining The Big Data Architecture Framework
Ozioma Ihekwoaba
No ratings yet
Big Data Utilities 2398956
Document25 pages
Big Data Utilities 2398956
Ozioma Ihekwoaba
No ratings yet
A Case Study Report On Churn Analysis: Submitted To Mr. Sanjay Rao Founder, Axion Connect Presented by Amit Kumar
Document8 pages
A Case Study Report On Churn Analysis: Submitted To Mr. Sanjay Rao Founder, Axion Connect Presented by Amit Kumar
Ozioma Ihekwoaba
No ratings yet
Hand Book On Bccs in GSM Ks Krishnan Sdetrichy1
Document19 pages
Hand Book On Bccs in GSM Ks Krishnan Sdetrichy1
dkprakash113
No ratings yet
1monthlychurnequals24ofsubsareswitching 141002064344 Phpapp01
Document7 pages
1monthlychurnequals24ofsubsareswitching 141002064344 Phpapp01
Ozioma Ihekwoaba
No ratings yet
Churn Prediction Model Hilda
Document49 pages
Churn Prediction Model Hilda
Ozioma Ihekwoaba
No ratings yet
Churn Prediction Using Data Mining
Document3 pages
Churn Prediction Using Data Mining
Ozioma Ihekwoaba
No ratings yet
09a.billing Systems
Document26 pages
09a.billing Systems
Neeraj Sahu
No ratings yet
Telecoms Billing Manual
Document27 pages
Telecoms Billing Manual
Khalid Makahleh
100% (1)
GE SCR-001 Rev A1
Document17 pages
GE SCR-001 Rev A1
betobebeto
No ratings yet
Isense Ethernet Gateway User Guide
Document30 pages
Isense Ethernet Gateway User Guide
Lucas Dei Castelli
No ratings yet
Bhagwat Geeta 8
Document18 pages
Bhagwat Geeta 8
khyamnarayan
No ratings yet
Slog
Document3 pages
Slog
Edgardo Brignone
No ratings yet
Mastercam2024 pb4 Resolved Issues
Document22 pages
Mastercam2024 pb4 Resolved Issues
sanath deltron
No ratings yet
Martinez - Lightning Performance Analysis of Overhead Transmission Lines Using The EMTP PDF
Document11 pages
Martinez - Lightning Performance Analysis of Overhead Transmission Lines Using The EMTP PDF
Diego Acosta
No ratings yet
RF Model Tunning Guide
Document13 pages
RF Model Tunning Guide
anh00
No ratings yet
Quiz 2
Document6 pages
Quiz 2
Shaukat Ali Shah
No ratings yet
Video Doorbell: Setup and Installation Guide
Document20 pages
Video Doorbell: Setup and Installation Guide
Sajan Jose
No ratings yet
Homework Assignment #1: Boost Converter Simulation
Document2 pages
Homework Assignment #1: Boost Converter Simulation
sasa
50% (18)
Build Your Own Reamp Box - Recording Magazine
Document2 pages
Build Your Own Reamp Box - Recording Magazine
Arnab Bhattacharya
No ratings yet
E-Business Architecture Framework
Document30 pages
E-Business Architecture Framework
Devesh_Awasthi_6402
No ratings yet
AwkUsageIn Bash Scripting
Document67 pages
AwkUsageIn Bash Scripting
puppy.cdma
No ratings yet
Process Template For PMS Report Unique Visitors To The EURES Portal
Document25 pages
Process Template For PMS Report Unique Visitors To The EURES Portal
zibuapa
No ratings yet
Mock Test & SPOT PRELIMS
Document4 pages
Mock Test & SPOT PRELIMS
Hrid 2
No ratings yet
Chapter 2 Understanding and Modeling Organizational System
Document29 pages
Chapter 2 Understanding and Modeling Organizational System
Orlando Felix
No ratings yet
Stockpile With Drones Ebook F
Document23 pages
Stockpile With Drones Ebook F
Dannal Aramburu
No ratings yet
Name: Rijna Shrestha Roll No.: 36: 1.short Note On DDL and DML
Document9 pages
Name: Rijna Shrestha Roll No.: 36: 1.short Note On DDL and DML
rijna sth
No ratings yet
Vyzex Pocket Pod Preferences
Document11 pages
Vyzex Pocket Pod Preferences
Daz Mason
No ratings yet
Satellite Communications
Document3 pages
Satellite Communications
Rajesh Venkat
No ratings yet
Powering Wireless Networks
Document29 pages
Powering Wireless Networks
Mohanad Mossa
No ratings yet
Color Grid
Document11 pages
Color Grid
cheat jam
No ratings yet
CT2 Coa KCS-302
Document3 pages
CT2 Coa KCS-302
nandini sharma
No ratings yet
80-NET U Rev.8 10 2008
Document86 pages
80-NET U Rev.8 10 2008
mad___max
No ratings yet
Pill Camera: A Miniature Camera That Travels Through Your Digestive System
Document19 pages
Pill Camera: A Miniature Camera That Travels Through Your Digestive System
BHAGYA LAKSHMI
No ratings yet
Install, Uninstall, Network Test Cases for Application
Document4 pages
Install, Uninstall, Network Test Cases for Application
kavithakandhu
No ratings yet
Magna 3
Document36 pages
Magna 3
mercruiser
No ratings yet
Daewoo DVN-14F6N, DVN-20F6N Chassis CN-140 TV VCR PDF
Document142 pages
Daewoo DVN-14F6N, DVN-20F6N Chassis CN-140 TV VCR PDF
platonvhm
No ratings yet
Sehsor Hsrga
Document7 pages
Sehsor Hsrga
moch lutfi
No ratings yet
VT82C686B Delivers Value
Document130 pages
VT82C686B Delivers Value
anacer55
No ratings yet