Creating RDD

Uploaded by

Parveen Mittal

0% found this document useful (0 votes)

12 views2 pages

Original Title

CreatingRDD

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

12 views2 pages

Creating RDD

Uploaded by

Parveen Mittal

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

Creating RDD

Sample_data = sc.parallelize([(pk,26),(sm,24),(sr,26),(na,23),(pm,26)])

sc.textFile(‘/local/folder/filename.csv’):from local
sc.textFile(‘hdfs/folder/filename.csv’):from hdfs file system

sc.textFile(‘s3/folder/filename.csv’):from aws amazon s3 bucket

sc.textFile(‘dbfs/folder/filename.csv’):from databricks file system

DataFrame

sample_df = spark.createDataFrame(
Sample_data, [
'Id'
, 'Model'
, 'Year'
]
)

From Csv
sample_data_csv = (
spark
.read
.csv(
'../Data/DataFrames_sample.csv'
, header=True
, inferSchema=True)
)

From Json

sample_data_json_df = (
spark
.read
.json('../Data/DataFrames_sample.json')
)

import pyspark.sql as sql

import pyspark.sql.functions as f
sample_data_transformed = (
sample_data_df
.rdd
.map(lambda row: sql.Row(
**row.asDict()
, HDD_size=row.HDD.split(' ')[0]
)
)
.map(lambda row: sql.Row(
**row.asDict()
, HDD_type=row.HDD.split(' ')[1]
)
)
.map(lambda row: sql.Row(
**row.asDict()
, Volume=row.H * row.D * row.W
)
)
.toDF()
.select(
sample_data_df.columns +
[
'HDD_size'
, 'HDD_type'
, f.round(
f.col('Volume')
).alias('Volume_cuIn')
]
)
)

How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet
Week12 Assignment Solution
Document10 pages
Week12 Assignment Solution
Arnab Dey
No ratings yet
Snow SQL
Document3 pages
Snow SQL
Durgesh Saindane
No ratings yet
Python Code
Document7 pages
Python Code
Gnan Shetty
No ratings yet
05_functions
Document6 pages
05_functions
jen
No ratings yet
Loading and Saving Data
Document5 pages
Loading and Saving Data
durgapriyachikkala05
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
Document7 pages
(Big Data Analytics With PySpark) (CheatSheet)
Niwahereza Dan
No ratings yet
Spark
Document1 page
Spark
Josue Rueda Garcia
No ratings yet
raw_nitex
Document5 pages
raw_nitex
neel neelanti
No ratings yet
Cadence To Matlab Tutorial
Document3 pages
Cadence To Matlab Tutorial
petricli
No ratings yet
Apache Spark
Document5 pages
Apache Spark
Sanghamitra Das
No ratings yet
Big Data Analytics in Apache Spark
Document79 pages
Big Data Analytics in Apache Spark
ArXlan Xahir
No ratings yet
Notes of Azure Data Bricks
Document16 pages
Notes of Azure Data Bricks
Vikram sharma
No ratings yet
DBA Cheat Sheet
Document13 pages
DBA Cheat Sheet
callit007
No ratings yet
19.3.2 Data Preprocessing Di Spark
Document5 pages
19.3.2 Data Preprocessing Di Spark
Yafi Shalihuddin
No ratings yet
My Pyspark Practice Notes
Document63 pages
My Pyspark Practice Notes
Study Table
No ratings yet
Project 2 - Phase 2
Document4 pages
Project 2 - Phase 2
Srinivas H
No ratings yet
Cephadm
Document105 pages
Cephadm
Yuan Zhao
No ratings yet
Final Code 2
Document3 pages
Final Code 2
incomemining.bi
No ratings yet
Group DataFrame by Hour of Day
Document5 pages
Group DataFrame by Hour of Day
Sai Krishna
No ratings yet
AWS Big Data
Document39 pages
AWS Big Data
Aditya Mehta
100% (1)
Master CSV Files with Pandas
Document14 pages
Master CSV Files with Pandas
Rasik Thapa
No ratings yet
SPARK RDD PROCESSING
Document7 pages
SPARK RDD PROCESSING
Nagraj Goud
No ratings yet
Machine Learning Lab Record File Format Conversion and Statistics
Document4 pages
Machine Learning Lab Record File Format Conversion and Statistics
20131A05N9 SRUTHIK THOKALA
No ratings yet
Create An Spark Streaming App: 1. Architecture and Abstraction
Document8 pages
Create An Spark Streaming App: 1. Architecture and Abstraction
Ngô Hoàng
No ratings yet
#Initialising and Loading The Libraries
Document7 pages
#Initialising and Loading The Libraries
Goutam Biswas
No ratings yet
Time Model Query's
Document4 pages
Time Model Query's
sreeharirao kadali
No ratings yet
Etl Commands For Pyspark
Document8 pages
Etl Commands For Pyspark
ridhima kalra
No ratings yet
Data Analysis W Pandas
Document4 pages
Data Analysis W Pandas
x7jn4sxdn9
No ratings yet
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
Document3 pages
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
Tawsif Hasan
No ratings yet
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
Document3 pages
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
Tawsif Hasan
100% (1)
Pandas Cheatsheet Introduction
Document3 pages
Pandas Cheatsheet Introduction
Tawsif Hasan
No ratings yet
Spark SQL, RDDs, and DataFrames
Document12 pages
Spark SQL, RDDs, and DataFrames
Rambabu Giduturi
No ratings yet
Spark Job Dataproc
Document4 pages
Spark Job Dataproc
Denys Stolbov
No ratings yet
Deep Learning For Predictive Maintenance - Artificial - Intelligence - For - Iot - Cookbook
Document27 pages
Deep Learning For Predictive Maintenance - Artificial - Intelligence - For - Iot - Cookbook
mahmoudahmed.rta
No ratings yet
Menu Py
Document5 pages
Menu Py
sunlamp.joists.0c
No ratings yet
Posts: Data Protection Hub
Document48 pages
Posts: Data Protection Hub
sarath
No ratings yet
Snowflake Document
Document26 pages
Snowflake Document
s
No ratings yet
Intefaces
Document9 pages
Intefaces
Dima Azzam
No ratings yet
Comparing ARIMA & ML Models for Air Quality Forecasting
Document6 pages
Comparing ARIMA & ML Models for Air Quality Forecasting
Akash Mahajan
No ratings yet
PySpark Data Frame Questions PDF
Document57 pages
PySpark Data Frame Questions PDF
Varun Pathak
100% (1)
Data Wrangling (Data Preprocessing)
Document4 pages
Data Wrangling (Data Preprocessing)
Siddharth Raul
No ratings yet
Sheet 5 Pandas
Document13 pages
Sheet 5 Pandas
Irene Gabriel
No ratings yet
Código K-Means en Spyder
Document3 pages
Código K-Means en Spyder
Manuel Calva Z
No ratings yet
Internal Use Only : All Rights Reserved. No Spreading Without Permission of ZTE
Document7 pages
Internal Use Only : All Rights Reserved. No Spreading Without Permission of ZTE
MeiYen Lim
No ratings yet
Creation of Series Using List, Dictionary & Ndarray
Document65 pages
Creation of Series Using List, Dictionary & Ndarray
rizwana fathima
No ratings yet
Assignment 4
Document216 pages
Assignment 4
Shailendra chaudhary
No ratings yet
arrow cookbook
Document12 pages
arrow cookbook
Ofili Lewis Obiajulum
No ratings yet
AD Privileged Audit - ps1
Document24 pages
AD Privileged Audit - ps1
Adegbola Oluwaseun
No ratings yet
Saish IP Project
Document16 pages
Saish IP Project
Saish Parkar
No ratings yet
Codes
Document37 pages
Codes
Tame PcAddict
No ratings yet
Iteration
Document40 pages
Iteration
Sidhu Worldwide
No ratings yet
Different SQL Queries Used To Monitor SQL Server
Document4 pages
Different SQL Queries Used To Monitor SQL Server
Esubalew
No ratings yet
ADO Pgms
Document51 pages
ADO Pgms
Supriya Damodaran
No ratings yet
Neo4j Graph Database Research Papers
Document18 pages
Neo4j Graph Database Research Papers
ert
No ratings yet
CCA Spark and Hadoop Developer Exam (CCA175) Review
Document5 pages
CCA Spark and Hadoop Developer Exam (CCA175) Review
Murthydvms
No ratings yet
01 Python 02 Data Sourcing
Document9 pages
01 Python 02 Data Sourcing
AyoubENSAT
No ratings yet
DA0101EN-Review-Introduction - Jupyter Notebook
Document8 pages
DA0101EN-Review-Introduction - Jupyter Notebook
Sohail Doulah
No ratings yet
3
Document7 pages
3
Rithik Reddy
No ratings yet
code
Document6 pages
code
Keerti Gulati
No ratings yet
Question VideoStreaming
Document1 page
Question VideoStreaming
Parveen Mittal
No ratings yet
Water: Fficient Water Quality Prediction Using Supervised
Document14 pages
Water: Fficient Water Quality Prediction Using Supervised
Jacky
No ratings yet
Import JSON data into SQLite database
Document2 pages
Import JSON data into SQLite database
Parveen Mittal
No ratings yet
All Kind of Covid Help
Document10 pages
All Kind of Covid Help
Parveen Mittal
No ratings yet
Database Practice
Document6 pages
Database Practice
Parveen Mittal
No ratings yet
Output 2
Document2 pages
Output 2
Parveen Mittal
No ratings yet
Who Said Terms of Service Agreements Can't Be Funny - Daily Conversions
Document3 pages
Who Said Terms of Service Agreements Can't Be Funny - Daily Conversions
Parveen Mittal
No ratings yet
Create Department Table and Insert Data
Document5 pages
Create Department Table and Insert Data
Parveen Mittal
No ratings yet
Operation Log
Document1 page
Operation Log
Parveen Mittal
No ratings yet
Cowmaa
Document5 pages
Cowmaa
Parveen Mittal
No ratings yet
Windows 10 Upgrade Version
Document1 page
Windows 10 Upgrade Version
Parveen Mittal
No ratings yet
Windows 10 Upgrade Version
Document1 page
Windows 10 Upgrade Version
Parveen Mittal
No ratings yet
Ds
Document199 pages
Ds
Al-Ain Homes
No ratings yet
Lecture 14: Graphs II DFS
Document7 pages
Lecture 14: Graphs II DFS
Zorzallibre
No ratings yet
About Apache
Document5 pages
About Apache
Catalin Onofrei
No ratings yet
Cowmaa
Document5 pages
Cowmaa
Parveen Mittal
No ratings yet
Readme
Document1 page
Readme
Parveen Mittal
No ratings yet
Revisions
Document32 pages
Revisions
Parveen Mittal
No ratings yet
Cowmaa
Document1 page
Cowmaa
Parveen Mittal
No ratings yet
PK Mittal Oops
Document1 page
PK Mittal Oops
Parveen Mittal
No ratings yet
Pkmittaloops
Document1 page
Pkmittaloops
Parveen Mittal
No ratings yet
Loppolpolp
Document1 page
Loppolpolp
Parveen Mittal
No ratings yet
FM Gen
Document7 pages
FM Gen
Parveen Mittal
No ratings yet
Report Piracy & Win Reward
Document8 pages
Report Piracy & Win Reward
Parveen Mittal
No ratings yet
GSM Garbage Bin Overflow Alert Under 40 Characters
Document11 pages
GSM Garbage Bin Overflow Alert Under 40 Characters
Parveen Mittal
No ratings yet
Reffrigrator
Document8 pages
Reffrigrator
Parveen Mittal
No ratings yet
DD - Vs - Bootstrapper (1) - Decompression - Log
Document1 page
DD - Vs - Bootstrapper (1) - Decompression - Log
Parveen Mittal
No ratings yet
AppInsights VisualStudio
Document26 pages
AppInsights VisualStudio
Parveen Mittal
No ratings yet
GSM Garbage Bin Overflow Alert Under 40 Characters
Document11 pages
GSM Garbage Bin Overflow Alert Under 40 Characters
Parveen Mittal
No ratings yet