Welcome to Scribd!

Skip carousel

Pair RDD Operations: Flat Map

Uploaded by

marina dutta

0% found this document useful (0 votes)

27 views4 pages

spark

Original Title

Spark Commands

Copyright

Available Formats

RTF, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

spark

Copyright:

Available Formats

Download as RTF, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

27 views4 pages

Pair RDD Operations: Flat Map

Uploaded by

marina dutta

spark

Copyright:

Available Formats

Download as RTF, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 4

Search inside document

val x = sc.

parallelize(List("spark rdd example", "sample example"))

val x = sc.parallelize(List("spark rdd example", "sample example”),2)

x.collect()

val textFileLocalTest = sc.textFile("/Users/syedrizvi/Desktop/HadoopExamples/file.txt");

val textFile = sc.textFile("hdfs://localhost:9000/test.txt")

Flat Map
val x = sc.parallelize(List("spark rdd example", "sample example"))
val y = x.flatMap(x => x.split(" "))

Map
val z = y.map(x => (x, 1));

Filter
val x = sc.parallelize(1 to 10)

Or with partition

val x = sc.parallelize(1 to 10, 2)

val y = x.filter(num => num%2==0)
y.collect();

Reduce
val x = sc.parallelize(1 to 10, 2)
val y = x.reduce((a, b) => (a+b))

Pair RDD Operations

GroupBy
val x = sc.parallelize(Array("Joseph", "Jimmy", "Tina","Thomas", "James", "Cory","Christine", "Jackeline",
"Juan"))
val y = x.groupBy(word => word.charAt(0))

y.collect();

ReduceByKey
val x = sc.parallelize(Array(("a", 1), ("b", 1), ("a", 1),("a", 1), ("b", 1),("b", 1),("b", 1), ("b", 1)))
val y = x.reduceByKey((key, value) => (key + value))
y.collect()

SortByKey
val y = x.sortByKey()
y.collect()

Joins
val salesprofit = sc.parallelize(Array(("Cadbury's", 3.5),("Nestle", 2.8),("Mars", 2.5), ("Thorton's", 2.2)));

val salesyear = sc.parallelize(Array(("Cadbury's", 2015),("Nestle", 2014),("Mars", 2014), ("Thorton's", 2013)));

val join = salesprofit.join(salesyear);

join.collect();
Spark SQL

val sqlContext = new org.apache.spark.sql.SQLContext(sc);

val df = sqlContext.read.json("/Users/syedrizvi/Desktop/HadoopExamples/Spark/sample.json")

df.show();

df.printSchema();

df.select(“name”).show();

df.select(df("name"),df("age")+1).show();

df.filter(df("age")>21).show()

df.groupBy("age").count().show();

Creating Temp Views

df.createOrReplaceTempView("people")
val sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show();

Creating Data sets on the fly

case class Person(name: String, age: Long)

val caseClassDS = Seq(Person("Andy", 32)).toDS()
caseClassDS.show()

val primitiveDS = Seq(1, 2, 3).toDS()

primitiveDS.map(_ + 1).collect()

Creating Schemas with Reflection

val sqlContext = new org.apache.spark.sql.SQLContext(sc);

case class Person(name: String, age: Long)

val peopleDF =
spark.sparkContext.textFile("/Users/syedrizvi/Desktop/HadoopExamples/Spark/people.txt").map(_.split(",")).m
ap(attributes=>Person(attributes(0),attributes(1).trim.toInt)).toDF();

peopleDF.createOrReplaceTempView("people")

val teenagersDF = spark.sql("SELECT name, age FROM people WHERE age BETWEEN 13 AND 19")

teenagersDF.map(teenager => "Name: " + teenager(0)).show()

teenagersDF.map(teenager => "Name: " + teenager.getAs[String]("name")).show()

Interacting with Hive
import org.apache.spark.sql.Row
import org.apache.spark.sql.SparkSession

val warehouseLocation = "spark-warehouse"

val spark = SparkSession.builder().appName("Spark Hive Example").config("spark.sql.warehouse.dir",

warehouseLocation).enableHiveSupport().getOrCreate()

import spark.implicits._
import spark.sql

sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")

sql("LOAD DATA LOCAL INPATH '/Users/syedrizvi/Desktop/HadoopExamples/Spark/kv1.txt' INTO TABLE

src")

sql("SELECT * FROM src").show()

sql("select current_database()").show(false)

Spark Streaming
To run the example from source

To Run net cat

nc -lk 9999

/usr/local/Cellar/apache-spark/2.1.0/bin/run-example streaming.NetworkWordCount localhost 9999

Your own word count

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}

val ssc = new StreamingContext(sc, Seconds(1))

val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()

HBase Administration Cookbook
From Everand
HBase Administration Cookbook
Yifeng Jiang
No ratings yet
Sql Plsql Oracle
From Everand
Sql Plsql Oracle
Andrew Igla
No ratings yet
Spark RDD Dataframes SQL
Document3 pages
Spark RDD Dataframes SQL
leongladxton
No ratings yet
Hive Commands
Document3 pages
Hive Commands
pkumarss
No ratings yet
Hadoop Realtime Issues
Document3 pages
Hadoop Realtime Issues
jey011851
No ratings yet
Essential HDFS Commands for Managing Files and Directories
Document15 pages
Essential HDFS Commands for Managing Files and Directories
pawan
No ratings yet
Unix - Day 1: Intermediate Level
Document46 pages
Unix - Day 1: Intermediate Level
Praveen Kumar
No ratings yet
Javascript
Document145 pages
Javascript
sarthak pasricha
No ratings yet
Java Servlets: M. L. Liu
Document31 pages
Java Servlets: M. L. Liu
Om Bala
100% (1)
Apache Spark Tutorials
Document9 pages
Apache Spark Tutorials
ronics123
No ratings yet
Sqoop Commands - Latest
Document4 pages
Sqoop Commands - Latest
H S Manju Nath
No ratings yet
Report SQL PDF
Document21 pages
Report SQL PDF
Rambabu Alokam
No ratings yet
Javascript
Document113 pages
Javascript
Niranjan
No ratings yet
Sqoop Demo
Document7 pages
Sqoop Demo
Jyotirmay Sahu
No ratings yet
Hands On Exercises 2013
Document51 pages
Hands On Exercises 2013
Manish Jain
No ratings yet
Hadoop
Document30 pages
Hadoop
SAM7028
No ratings yet
Sqoop Cheatsheet
Document3 pages
Sqoop Cheatsheet
PremKumar Sivanandan
No ratings yet
Hadoop Installation Step by Step
Document6 pages
Hadoop Installation Step by Step
Umesh Nagar
No ratings yet
HDFS
Document6 pages
HDFS
Siddharth Bubbul
100% (2)
Guided By:: Miss. Rupali Zambre
Document20 pages
Guided By:: Miss. Rupali Zambre
john
No ratings yet
Hadoop
Document7 pages
Hadoop
Amaleswar
No ratings yet
Resume
Document4 pages
Resume
shekhar
No ratings yet
SqoopTutorial Ver 2.0
Document51 pages
SqoopTutorial Ver 2.0
bujjijuly
No ratings yet
HDFS Interview Questions - Top 15 HDFS Questions Answered
Document29 pages
HDFS Interview Questions - Top 15 HDFS Questions Answered
anuja shinde
No ratings yet
MySQL and Postgres command equivalents cheat sheet
Document7 pages
MySQL and Postgres command equivalents cheat sheet
kishore_m_k
No ratings yet
Top 100 Hadoop Interview Questions
Document17 pages
Top 100 Hadoop Interview Questions
patricia
No ratings yet
049 Hadoop Commands Reference Guide.
Document3 pages
049 Hadoop Commands Reference Guide.
vaasu1
No ratings yet
Bootstrap 4
Document376 pages
Bootstrap 4
Amazing DALVI
No ratings yet
New Informatica Concepts - Day
Document98 pages
New Informatica Concepts - Day
Chanukya Reddy Mekala
No ratings yet
Hive
Document17 pages
Hive
pruphiphis
No ratings yet
(Amazon Web Services) : Training On
Document5 pages
(Amazon Web Services) : Training On
rakesh manu
No ratings yet
Final Practice Set
Document31 pages
Final Practice Set
swagat
No ratings yet
Hive Commands Simplin
Document5 pages
Hive Commands Simplin
marina dutta
No ratings yet
Web Tech & Python Questionnaire Answers
Document53 pages
Web Tech & Python Questionnaire Answers
Rahul Sharma
No ratings yet
Ashok 2+
Document4 pages
Ashok 2+
Ram Ramaraju
No ratings yet
18 Months With Scala
Document38 pages
18 Months With Scala
blue.remix3959
No ratings yet
Terminal: The Basics: General Information
Document7 pages
Terminal: The Basics: General Information
joannaa_castillo
No ratings yet
CSS3 Skill Test Top 20
Document28 pages
CSS3 Skill Test Top 20
Shalabh
No ratings yet
Module10 BigData PDF
Document4 pages
Module10 BigData PDF
srinubasani
No ratings yet
Spark Summit East 2015 - Adv Dev Ops - Student Slides
Document219 pages
Spark Summit East 2015 - Adv Dev Ops - Student Slides
Chánh Lê
No ratings yet
Unix Training by Dhanabal
Document340 pages
Unix Training by Dhanabal
Leo Thomas
No ratings yet
BIG DATA WITH HADOOP, HDFS & MAPREDUCE (Hands On Training)
Document35 pages
BIG DATA WITH HADOOP, HDFS & MAPREDUCE (Hands On Training)
D.KESAVARAJA
No ratings yet
ADO.net
Document64 pages
ADO.net
Kumar Anupam
No ratings yet
HOL Hive
Document85 pages
HOL Hive
Kishore Kumar
No ratings yet
Hive
Document3 pages
Hive
ud
No ratings yet
Pyspark Funcamentals
Document10 pages
Pyspark Funcamentals
mamatha
No ratings yet
Linux Command List
Document8 pages
Linux Command List
hkneptune
No ratings yet
Hive For SQL Users: Cheat Sheet
Document3 pages
Hive For SQL Users: Cheat Sheet
srikanth07balusu
No ratings yet
Hadoop and Spark Developer Resume
Document3 pages
Hadoop and Spark Developer Resume
ssinha122
No ratings yet
File Watcher For Control-M
Document12 pages
File Watcher For Control-M
Saurabh Tandon
No ratings yet
How To Install JDK 8 (On Windows, Mac OS, Ubuntu)
Document11 pages
How To Install JDK 8 (On Windows, Mac OS, Ubuntu)
MSHAIKHAX
No ratings yet
Informatic 8-Training-BISP PDF
Document271 pages
Informatic 8-Training-BISP PDF
ahmed_sft
No ratings yet
24 Hadoop Interview Questions & Answers
Document7 pages
24 Hadoop Interview Questions & Answers
nalinbhatt
No ratings yet
Bigdata Notes
Document26 pages
Bigdata Notes
Anil Yarlagadda
No ratings yet
Query array elements in MongoDB
Document16 pages
Query array elements in MongoDB
chris
No ratings yet
Taking An Exam: Proctoring
Document55 pages
Taking An Exam: Proctoring
Jahiko
No ratings yet
Spark SQL A Complete Guide
From Everand
Spark SQL A Complete Guide
Gerardus Blokdyk
No ratings yet
Getting Started with Big Data Query using Apache Impala
From Everand
Getting Started with Big Data Query using Apache Impala
Agus Kurniawan
No ratings yet
Modern Web Applications with Next.JS: Learn Advanced Techniques to Build and Deploy Modern, Scalable and Production Ready React Applications with Next.JS
From Everand
Modern Web Applications with Next.JS: Learn Advanced Techniques to Build and Deploy Modern, Scalable and Production Ready React Applications with Next.JS
Shubham Jain
No ratings yet
NoSQL Databases A Complete Guide - 2020 Edition
From Everand
NoSQL Databases A Complete Guide - 2020 Edition
Gerardus Blokdyk
No ratings yet
Assignment Day 10: Task 1
Document8 pages
Assignment Day 10: Task 1
marina dutta
No ratings yet
Television
Document1 page
Television
marina dutta
No ratings yet
Assignment 10
Document9 pages
Assignment 10
marina dutta
No ratings yet
Setting Up Spark 2.0 With Intellij Community Edition
Document12 pages
Setting Up Spark 2.0 With Intellij Community Edition
amitkm21
No ratings yet
Hive Commands Acadgild Bucketing
Document2 pages
Hive Commands Acadgild Bucketing
marina dutta
No ratings yet
Assignment Day 10: Task 1
Document8 pages
Assignment Day 10: Task 1
marina dutta
No ratings yet
Hive Commands Simplin
Document5 pages
Hive Commands Simplin
marina dutta
No ratings yet
Sqoop Commands AG PDF
Document2 pages
Sqoop Commands AG PDF
marina dutta
No ratings yet
Assignment 10
Document9 pages
Assignment 10
marina dutta
No ratings yet
Assignment Day 10: Task 1
Document8 pages
Assignment Day 10: Task 1
marina dutta
No ratings yet
Assignment 10
Document9 pages
Assignment 10
marina dutta
No ratings yet
Kafka2 PDF
Document3 pages
Kafka2 PDF
marina dutta
No ratings yet
File
Document1 page
File
marina dutta
No ratings yet
Windows 7 Dial-Up Connection Setup Guide
Document7 pages
Windows 7 Dial-Up Connection Setup Guide
Mike
No ratings yet
A Case Study On Strategies To Deal With The Impacts of COVID-19 Pandemic in The Food and Beverage Industry
Document13 pages
A Case Study On Strategies To Deal With The Impacts of COVID-19 Pandemic in The Food and Beverage Industry
Peyman Kazemianhaddadi
No ratings yet
Incremental Analysis Decision Making
Document4 pages
Incremental Analysis Decision Making
Ma Teresa B. Cerezo
No ratings yet
GDRating
Document13 pages
GDRating
dgzaquinojc
No ratings yet
Aluminio 2024-T3
Document2 pages
Aluminio 2024-T3
Ibsonh
No ratings yet
KETRACO Clarifies Technical Queries for 400kV Transmission Project
Document5 pages
KETRACO Clarifies Technical Queries for 400kV Transmission Project
ahmadove1
No ratings yet
bài tập ôn MA1
Document34 pages
bài tập ôn MA1
Thái Dương
No ratings yet
Study On Intel 80386 Microprocessor
Document3 pages
Study On Intel 80386 Microprocessor
International Journal of Innovative Science and Research Technology
No ratings yet
Digital Marketing - Scope Opportunities and Challenges - IntechOpen PDF
Document31 pages
Digital Marketing - Scope Opportunities and Challenges - IntechOpen PDF
Prats
No ratings yet
CriticalAppraisalWorksheetTherapy EffectSize
Document2 pages
CriticalAppraisalWorksheetTherapy EffectSize
FitriArdiningsih
No ratings yet
Calculus (Solution To Assignment Iv) : February 12, 2012
Document4 pages
Calculus (Solution To Assignment Iv) : February 12, 2012
Mawuena Melomey
No ratings yet
Collateral Asset Definitions
Document116 pages
Collateral Asset Definitions
api-3748391
100% (2)
Hantavirus Epi Alert
Document4 pages
Hantavirus Epi Alert
Sutirtho Mukherji
No ratings yet
Update Resume
Document3 pages
Update Resume
Subbareddy Nv
No ratings yet
CH 6 Sandwiches
Document10 pages
CH 6 Sandwiches
Krishna Chaudhary
No ratings yet
Product Information: Automotive Sensor UMRR-96 TYPE 153
Document18 pages
Product Information: Automotive Sensor UMRR-96 TYPE 153
CORAL ALONSO
No ratings yet
KK 080711 Hancock
Document1 page
KK 080711 Hancock
katehasablog
No ratings yet
Breaking Into Software Defined Radio: Presented by Kelly Albrink
Document40 pages
Breaking Into Software Defined Radio: Presented by Kelly Albrink
Chris Guarin
100% (1)
Dryspell+ Manual
Document71 pages
Dryspell+ Manual
Aldo D'Andrea
No ratings yet
Finite Element and Analytical Modelling of PVC-confined Concrete Columns Under Axial Compression
Document23 pages
Finite Element and Analytical Modelling of PVC-confined Concrete Columns Under Axial Compression
Shaker Qaidi
No ratings yet
Nanosafety Exam Questions
Document4 pages
Nanosafety Exam Questions
Mulugeta
No ratings yet
Tunisia - Country Profile: 1 Background 2 2 Population 2
Document18 pages
Tunisia - Country Profile: 1 Background 2 2 Population 2
stand4x
No ratings yet
Statistical Theory and Analysis in Bioassay Overview
Document11 pages
Statistical Theory and Analysis in Bioassay Overview
Egbuna Chukwuebuka
No ratings yet
2022-2023 Enoch Calendar: Northern Hemisphere
Document14 pages
2022-2023 Enoch Calendar: Northern Hemisphere
Thakuma Yuchii
No ratings yet
5 Harms of Excessive Use of Electronic Games
Document3 pages
5 Harms of Excessive Use of Electronic Games
Pierre Marucci
No ratings yet
SMEDA (Small and Medium Enterprises Development Authority)
Document29 pages
SMEDA (Small and Medium Enterprises Development Authority)
Salwa buriro
No ratings yet
Bridal Boutique Business Plan Summary
Document35 pages
Bridal Boutique Business Plan Summary
kira5729
No ratings yet
Reg0000007635187
Document2 pages
Reg0000007635187
Amal Jimmy
No ratings yet
Java Layout Managers
Document16 pages
Java Layout Managers
Vijaya Kumar Vadladi
No ratings yet
Ashfaq
Document9 pages
Ashfaq
Anonymous m29snus
No ratings yet