Welcome to Scribd!

Big Data Computing Spark Built-In Libraries

Uploaded by

0% found this document useful (0 votes)

43 views11 pages

Spark has several built-in libraries for common machine learning, graph processing, streaming, and SQL queries on large datasets. The machine learning library (MLlib) includes algorithms for classification, regression, clustering, collaborative filtering and decomposition. GraphX is a graph processing library with algorithms for tasks like collaborative filtering, community detection, and graph analytics. Spark Streaming allows for large scale streaming computations with exactly-once semantics. Spark SQL enables loading and querying structured data from sources like Hive and JSON.

Original Description:

Description about spark

Original Title

Lecture 11 Spark Libraries

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

43 views11 pages

Big Data Computing Spark Built-In Libraries

Uploaded by

vishwas srivastava

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 11

Search inside document

Spark Built-in Libraries

Dr. Rajiv Misra

Dept. of Computer Science & Engg.
Indian Institute of Technology Patna
rajivm@iitp.ac.in
Big Data Computing Vu Pham Spark Built-in Libraries
Introduction
Apache Spark is a fast and general-purpose cluster
computing system for large scale data processing

High-level APIs in Java, Scala, Python and R

Big Data Computing Vu Pham Spark Built-in Libraries

Standard Library for Big Data
Big data apps lack
libraries“ of common
algorithms

Spark’s generality +
support“ for multiple
languages make it“
suitable to offer this

Much of future activity

will be in these libraries
Big Data Computing Vu Pham Spark Built-in Libraries
A General Platform

Big Data Computing Vu Pham Spark Built-in Libraries

Machine Learning Library (MLlib)
MLlib algorithms:

(i) Classification: logistic regression, linear SVM,“ naïve

Bayes, classification tree
(ii) Regression: generalized linear models (GLMs),
regression tree
(iii) Collaborative filtering: alternating least squares (ALS),
non-negative matrix factorization (NMF)
(iv) Clustering: k-means
(v) Decomposition: SVD, PCA
(vi) Optimization: stochastic gradient descent, L-BFGS
Big Data Computing Vu Pham Spark Built-in Libraries
GraphX

Big Data Computing Vu Pham Spark Built-in Libraries

GraphX

•General graph processing library

•Build graph using RDDs of nodes and edges

•Large library of graph algorithms with composable

steps

Big Data Computing Vu Pham Spark Built-in Libraries

GraphX Algorithms
(i) Collaborative Filtering (iv) Community Detection
Alternating Least Squares Triangle-Counting
Stochastic Gradient Descent K-core Decomposition
Tensor Factorization K-Truss

(ii) Structured Prediction (v) Graph Analytics

Loopy Belief Propagation PageRank
Max-Product Linear Programs Personalized PageRank
Gibbs Sampling Shortest Path
Graph Coloring
(iii) Semi-supervised ML
Graph SSL (vi) Classification
CoEM Neural Networks

Big Data Computing Vu Pham Spark Built-in Libraries

Spark Streaming
•Large scale streaming
computation

•Ensure exactly one semantics

•Integrated with Spark →unifies

batch, interactive, and streaming
computations!

Big Data Computing Vu Pham Spark Built-in Libraries

Spark SQL
Enables loading & querying structured data in Spark

From Hive:

c = HiveContext(sc)
rows = c.sql(“select text, year from hivetable”)
rows.filter(lambda r: r.year > 2013).collect()

From JSON:

c.jsonFile(“tweets.json”).registerAsTable(“tweets”)
c.sql(“select text, user.name from tweets”)

Big Data Computing Vu Pham Spark Built-in Libraries

Spark Community
Most active open source community in big data
200+ developers, 50+ companies contributing

Big Data Computing Vu Pham Spark Built-in Libraries

Azure Data Lake and U-SQL
Document51 pages
Azure Data Lake and U-SQL
Saurabh Gupta
No ratings yet
POH - PA44 Seminole G1000 NXi
Document388 pages
POH - PA44 Seminole G1000 NXi
roxy
No ratings yet
Databricks - Spark Streaming
Document55 pages
Databricks - Spark Streaming
SlavimirVesić
No ratings yet
Spark Intreview FAQ
Document21 pages
Spark Intreview FAQ
haranadhc
100% (1)
Inductive and Deductive Bible Studies
Document9 pages
Inductive and Deductive Bible Studies
gethorn
No ratings yet
Sump Pump Selection Final Report
Document19 pages
Sump Pump Selection Final Report
Engr Saad Bin Sarfraz
No ratings yet
Chemistry For Engineers REVIEWEEER
Document26 pages
Chemistry For Engineers REVIEWEEER
James Philip Relleve
100% (5)
Spark Notes
Document6 pages
Spark Notes
babjeereddy
No ratings yet
8 Steps For A Developer To Learn Apache Spark and Delta Lake PDF
Document35 pages
8 Steps For A Developer To Learn Apache Spark and Delta Lake PDF
jnnvac
No ratings yet
Databricks: Building and Operating A Big Data Service Based On Apache Spark
Document32 pages
Databricks: Building and Operating A Big Data Service Based On Apache Spark
Saravanan1234567
No ratings yet
Big Data Analytics
From Everand
Big Data Analytics
Venkat Ankam
No ratings yet
Unit 5
Document109 pages
Unit 5
Rajesh Kumar Rakasula
No ratings yet
Apache Spark Engine
Document82 pages
Apache Spark Engine
AMAL NEJJARI
100% (1)
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
Machine Learning in Spark
Document26 pages
Machine Learning in Spark
brockthebone
No ratings yet
Big Data Technologies
Document31 pages
Big Data Technologies
AdiTan00
No ratings yet
Spark For Python Developers - Sample Chapter
Document32 pages
Spark For Python Developers - Sample Chapter
Packt Publishing
100% (6)
07 Spark Dataframes
Document45 pages
07 Spark Dataframes
mhafod
100% (1)
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
Document11 pages
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
divya kolluri
No ratings yet
Apache Spark Analytics Made Simple
Document76 pages
Apache Spark Analytics Made Simple
Naceur El
No ratings yet
Eurocode Assessment For Bridges
Document12 pages
Eurocode Assessment For Bridges
renand
No ratings yet
Arduino LAB Manual PDF
Document25 pages
Arduino LAB Manual PDF
jose_mario1128
100% (5)
Kafka
Document50 pages
Kafka
Emanuele Parente
No ratings yet
Spark Devops
Document301 pages
Spark Devops
topimaster
0% (1)
Kafka Up and Running for Network DevOps: Set Your Network Data in Motion
From Everand
Kafka Up and Running for Network DevOps: Set Your Network Data in Motion
Eric Chou
No ratings yet
Mastering Advanced Analytics With Apache Spark
Document75 pages
Mastering Advanced Analytics With Apache Spark
AgMa Hu
No ratings yet
Real-Time Big Data Analytics
From Everand
Real-Time Big Data Analytics
Shilpi
Rating: 5 out of 5 stars
5/5 (1)
Learning Hadoop 2
From Everand
Learning Hadoop 2
Garry Turkington
Rating: 4 out of 5 stars
4/5 (1)
Spark Libraries
Document11 pages
Spark Libraries
Rohit Ranjan
No ratings yet
Spark Project Report: Streaming
Document22 pages
Spark Project Report: Streaming
testyy testt
No ratings yet
IMQAV
Document3 pages
IMQAV
Electron Volt
No ratings yet
Certificate Course in Data Engineering - 40hrs
Document2 pages
Certificate Course in Data Engineering - 40hrs
raja00999
No ratings yet
Scaladayslambda Architecture Spark Cassandra Akka Kafka 150609194508 Lva1 App6891 PDF
Document100 pages
Scaladayslambda Architecture Spark Cassandra Akka Kafka 150609194508 Lva1 App6891 PDF
Bubu Tripathy
No ratings yet
Evan - Big Data Architect
Document5 pages
Evan - Big Data Architect
Madhav Garikapati
No ratings yet
Spark Interview Q&A
Document31 pages
Spark Interview Q&A
Rushi Khandare
No ratings yet
Apache Spark: Dhineshkumar S K
Document31 pages
Apache Spark: Dhineshkumar S K
PREM KUMAR M
No ratings yet
Ashish Resume Final
Document2 pages
Ashish Resume Final
Aftab Hussain
No ratings yet
Modern Analytics Academy - Data Modeling
Document12 pages
Modern Analytics Academy - Data Modeling
Hernan Labastie
No ratings yet
Design A Google Analytic Like Backend System
Document3 pages
Design A Google Analytic Like Backend System
Abdul Rehman
No ratings yet
Data Science Made Easy in Arcgis Using Python and R: James Jones, Lu Zhang and Lain Graham and
Document30 pages
Data Science Made Easy in Arcgis Using Python and R: James Jones, Lu Zhang and Lain Graham and
hvshashi
No ratings yet
Implementing Graph Data Base Based
Document26 pages
Implementing Graph Data Base Based
Nastase Daniela Ecaterina
No ratings yet
Evaluative Summary On Databricks' Value Propositions
Document2 pages
Evaluative Summary On Databricks' Value Propositions
Saad Sadiq
No ratings yet
Donald Ngandeu 1
Document6 pages
Donald Ngandeu 1
Noor Ayesha Iqbal
No ratings yet
Final
Document276 pages
Final
Yàssine Hàdry
No ratings yet
Big Data Analytics - Unit 2
Document10 pages
Big Data Analytics - Unit 2
thulasimaninami
No ratings yet
Big Data Processing: Jiaul Paik
Document47 pages
Big Data Processing: Jiaul Paik
Momin Subur
No ratings yet
Cassandra Expert Anujah Runwal Resume
Document4 pages
Cassandra Expert Anujah Runwal Resume
Himanshu Runwal
No ratings yet
Apache Spark & Scala Course Content
Document5 pages
Apache Spark & Scala Course Content
Naveen Elancersoft
No ratings yet
Introduction To Spark
Document4 pages
Introduction To Spark
miyumi
No ratings yet
EUC1502 Module5 Big-Data
Document46 pages
EUC1502 Module5 Big-Data
Радомир Мутабџија
No ratings yet
Deepak (Sr. Data Engineer)
Document10 pages
Deepak (Sr. Data Engineer)
ankul
No ratings yet
Big Data Links
Document7 pages
Big Data Links
Sijee Sadasivan
No ratings yet
Apache Spark Analytics Made Simple PDF
Document76 pages
Apache Spark Analytics Made Simple PDF
prerit_t
No ratings yet
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
Document2 pages
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
Venkat Chennareddy
No ratings yet
Uma Maheshwar Rao Bodi Data Engineer 2 M
Document7 pages
Uma Maheshwar Rao Bodi Data Engineer 2 M
HARSHA
No ratings yet
2018 02 08 Whats New in Apache Spark 2 180213220045
Document57 pages
2018 02 08 Whats New in Apache Spark 2 180213220045
shan4u4me
No ratings yet
Deepak Gaur - 4 Year(s) 6 Month(s)
Document2 pages
Deepak Gaur - 4 Year(s) 6 Month(s)
Lavi764 Barbie
No ratings yet
Zhao Et Al, 2017, InferSpark - Statistical Inference at Scale
Document13 pages
Zhao Et Al, 2017, InferSpark - Statistical Inference at Scale
Heru Praptono
No ratings yet
Designing A Production-Ready Kappa Architecture For Timely Data Stream Processing - Uber Engineering
Document1 page
Designing A Production-Ready Kappa Architecture For Timely Data Stream Processing - Uber Engineering
wilhelmjung
No ratings yet
Apache Spark: Data Science Foundations
Document55 pages
Apache Spark: Data Science Foundations
TRAPMUZIC HDTV
No ratings yet
TAS - Graph Database - June 2020
Document12 pages
TAS - Graph Database - June 2020
1977am
No ratings yet
Learn Well Technocraft: Hadoop/Big Data Syllabus
Document12 pages
Learn Well Technocraft: Hadoop/Big Data Syllabus
SONAL S.K
No ratings yet
Chapter 1
Document24 pages
Chapter 1
Ace
No ratings yet
Amrutha Ragothaman: +1 732-707-2195 Ragothaa@Kean - Edu
Document2 pages
Amrutha Ragothaman: +1 732-707-2195 Ragothaa@Kean - Edu
Nur Nahar Lima
No ratings yet
Samples resume AWS
Document4 pages
Samples resume AWS
Parth Agrawal Pro-Tek Consulting Inc
No ratings yet
How Apache Spark Fits into the Big Data Landscape
Document81 pages
How Apache Spark Fits into the Big Data Landscape
Sunil Patidar
No ratings yet
RunEco EP600 Datasheet 2018
Document2 pages
RunEco EP600 Datasheet 2018
widnu wirasetia
No ratings yet
Problem Sheet 2
Document2 pages
Problem Sheet 2
em m
No ratings yet
TM 11-6665-224-15
Document113 pages
TM 11-6665-224-15
Sivi
No ratings yet
NDX Warren
Document23 pages
NDX Warren
Bangsawan Arief
No ratings yet
PLC Based Solar Panel With Tilting Arrangement: April 2016
Document9 pages
PLC Based Solar Panel With Tilting Arrangement: April 2016
Paul Toderic
No ratings yet
Home Lighting PDF
Document8 pages
Home Lighting PDF
pilapil_j
100% (1)
Discrete Random Variables: Scott She Eld
Document16 pages
Discrete Random Variables: Scott She Eld
jokydin92
No ratings yet
Estimation of Power and Delay of CMOS Phase Detector Using Nano Transistors
Document57 pages
Estimation of Power and Delay of CMOS Phase Detector Using Nano Transistors
Viplav Sangvai
No ratings yet
Deep Learning For Environmentally Robust Speech Recognition - An Overview of Recent Developments PDF
Document28 pages
Deep Learning For Environmentally Robust Speech Recognition - An Overview of Recent Developments PDF
福福
No ratings yet
Section I Introduction To Magnetic Particle Inspection
Document130 pages
Section I Introduction To Magnetic Particle Inspection
hvu9743
No ratings yet
7SG16 - Ohmega 305 Complete Technical Manual
Document117 pages
7SG16 - Ohmega 305 Complete Technical Manual
vivek2159
No ratings yet
2023 2024 S1 SB Assignment Corrected
Document3 pages
2023 2024 S1 SB Assignment Corrected
31231022022
No ratings yet
3BSE041584-511 - En Compact Control Builder AC 800M 5.1.1 Getting Started
Document174 pages
3BSE041584-511 - En Compact Control Builder AC 800M 5.1.1 Getting Started
franciscoproa
No ratings yet
Ryebrassware 0505
Document40 pages
Ryebrassware 0505
api-36492444
No ratings yet
MWD Log Quality & Standards - BHI - 1996 PDF
Document168 pages
MWD Log Quality & Standards - BHI - 1996 PDF
saman
No ratings yet
CB1 - Key Concepts in Biology (Paper 1 and 2)
Document2 pages
CB1 - Key Concepts in Biology (Paper 1 and 2)
Alhaji Sow
No ratings yet
Class Exercise Simpleregression Ceo-Salary
Document1 page
Class Exercise Simpleregression Ceo-Salary
симона златкова
No ratings yet
ESM VS90 132 Brochure Work
Document8 pages
ESM VS90 132 Brochure Work
KM Karthik
No ratings yet
GPIB Communication and Hardware Specifications
Document5 pages
GPIB Communication and Hardware Specifications
shofika Selvaraj
No ratings yet
Testability Measures: Source: VLSI Test: Bushnell-Agrawal
Document38 pages
Testability Measures: Source: VLSI Test: Bushnell-Agrawal
Kartik singh
No ratings yet
Power Control in Ac Isolated Microgrids With Renewable Energy Sources and Energy Storage Systems
Document1 page
Power Control in Ac Isolated Microgrids With Renewable Energy Sources and Energy Storage Systems
srilu
No ratings yet
Variant SHD0
Document3 pages
Variant SHD0
Kamal Batra
No ratings yet