Welcome to Scribd!

Code

Uploaded by

0% found this document useful (0 votes)

1 views2 pages

The document shows the steps to preprocess data in Pandas, fit a machine learning model, evaluate the model, and convert it to a PySpark model. It reads CSV data into a Spark DataFrame, converts it to a Pandas DataFrame and performs preprocessing including handling missing values, data type conversion, feature scaling, encoding, selection and extraction. It then splits the data, fits a logistic regression model and evaluates it. Finally, it converts the Scikit-learn model to a PySpark model.

Original Description:

Original Title

code

Copyright

Available Formats

RTF, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as RTF, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

1 views2 pages

Code

Uploaded by

karthikeyanmlops

Copyright:

Available Formats

Download as RTF, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

from pyspark.

sql import SparkSession

spark = SparkSession.builder.appName("DataIngestion").getOrCreate()

df = spark.read.csv("path/to/data.csv", header=True)

import pandas as pd

from pyspark.sql.functions import when

pandas_df = df.toPandas()

# Handling missing values

pandas_df.fillna(pandas_df.mean(), inplace=True)

# Converting data types

pandas_df['column_name'] = pandas_df['column_name'].astype('float')

# Scaling numeric features

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

pandas_df['column_name'] = scaler.fit_transform(pandas_df[['column_name']])

# Encoding categorical variables

pandas_df = pd.get_dummies(pandas_df, columns=['column_name'])

# Feature selection

selected_columns = ['column_name_1', 'column_name_2', 'column_name_3']

pandas_df = pandas_df[selected_columns]

# Feature extraction
from sklearn.decomposition import PCA

pca = PCA(n_components=2)

pandas_df[['pca_1', 'pca_2']] = pca.fit_transform(pandas_df[['column_name_1', 'column_name_2']])

# Feature transformation

pandas_df['column_name'] = pandas_df['column_name'].apply(lambda x: x ** 2)

# Splitting data into training and testing sets

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(pandas_df.drop('target_variable', axis=1),

pandas_df['target_variable'],

test_size=0.3,

random_state=42)

# Fitting the model

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

model.fit(X_train, y_train)

# Evaluating the model

from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

# Converting the Scikit-learn model to a PySpark model

from pyspark.ml.classification import LogisticRegression as PySparkLogisticRegression

py_spark_model = PySparkLogisticRegression(featuresCol="features", labelCol="label")

py_spark_model.setParams(**model.get_params())

# Creating a UDF

from pyspark.sql.functions import

Scala Data Analysis Cookbook
From Everand
Scala Data Analysis Cookbook
Manivannan Arun
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
Document7 pages
(Big Data Analytics With PySpark) (CheatSheet)
Niwahereza Dan
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
Document20 pages
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
Saloni Tuli
No ratings yet
2020 CS 64
Document1 page
2020 CS 64
Qazi Maaz
No ratings yet
Example - 1
Document5 pages
Example - 1
Ishani Mehta
No ratings yet
Logistic Regression
Document2 pages
Logistic Regression
Raghupal reddy Gangula
No ratings yet
Raw Nitex
Document5 pages
Raw Nitex
neel neelanti
No ratings yet
Program 11
Document1 page
Program 11
dishanthpatel242
No ratings yet
Program 11
Document1 page
Program 11
dishanthpatel242
No ratings yet
Aiml Ex 5
Document3 pages
Aiml Ex 5
Tasmiya Dz
No ratings yet
Unit1 ML Programs
Document5 pages
Unit1 ML Programs
diroja5648
No ratings yet
Data Warehouse & Data Mining Lab Assignment-4 Name:Sai Subhikshaa.K.A REG NO:19MID0037 Code
Document6 pages
Data Warehouse & Data Mining Lab Assignment-4 Name:Sai Subhikshaa.K.A REG NO:19MID0037 Code
Vasumathi R 19MID0045
No ratings yet
2020 CS 95.py
Document1 page
2020 CS 95.py
Qazi Maaz
No ratings yet
1
Document1 page
1
adnan.rohan.cse
No ratings yet
Ex No 6
Document3 pages
Ex No 6
kpramya19
No ratings yet
Google Colab Material
Document4 pages
Google Colab Material
Zack Zack
No ratings yet
ML 1-10
Document53 pages
ML 1-10
22128008
No ratings yet
Linear Regression
Document2 pages
Linear Regression
Raghupal reddy Gangula
No ratings yet
Remedial Uts Ai
Document6 pages
Remedial Uts Ai
ZULFIKAR AFI MALIK
No ratings yet
Anaconda
Document2 pages
Anaconda
Raze
No ratings yet
Print: Program 7
Document3 pages
Print: Program 7
Impu anand
No ratings yet
Lecture Material 3
Document7 pages
Lecture Material 3
2021me372
No ratings yet
Codes
Document6 pages
Codes
Vamshi Krishna
No ratings yet
Pyspark Funcamentals
Document10 pages
Pyspark Funcamentals
mamatha
No ratings yet
Fundamental Pyspark Operations 1708364268
Document10 pages
Fundamental Pyspark Operations 1708364268
technicarguru
No ratings yet
Scikit
Document4 pages
Scikit
Anzal Malik
No ratings yet
Modelling and Simulation Sample Model 2
Document3 pages
Modelling and Simulation Sample Model 2
Uriel Anjelo Macaspac
No ratings yet
23MCA1104 - EX10 - KMEANS - Ipynb - Colab
Document1 page
23MCA1104 - EX10 - KMEANS - Ipynb - Colab
Piyush Verma
No ratings yet
Machine Learnin
Document23 pages
Machine Learnin
Manoj Kumar 1183
100% (1)
# Capture The Target Column ("Default") Into Separate Vectors For Training Set and Test Set
Document4 pages
# Capture The Target Column ("Default") Into Separate Vectors For Training Set and Test Set
Rohit Kumar
No ratings yet
Etl Commands For Pyspark
Document8 pages
Etl Commands For Pyspark
ridhima kalra
No ratings yet
Confronto Classificazione
Document2 pages
Confronto Classificazione
Mirko Cicala
No ratings yet
Entrenamiento
Document18 pages
Entrenamiento
hugobernal
No ratings yet
2 Program
Document4 pages
2 Program
b1974
No ratings yet
Correction
Document3 pages
Correction
bougmazisoufyane
No ratings yet
SwellHEV Assignment
Document2 pages
SwellHEV Assignment
Abdulrhman Alshameri
No ratings yet
Wine - Data2.py: Import As Import As Def
Document2 pages
Wine - Data2.py: Import As Import As Def
Daniela Kotaran Plejić
No ratings yet
Tree
Document7 pages
Tree
indigalakishore
No ratings yet
Compare Data Preparation Methods For The Wine Classification Dataset
Document2 pages
Compare Data Preparation Methods For The Wine Classification Dataset
Nguyen Xuan Vi
No ratings yet
Stocs Predict
Document2 pages
Stocs Predict
Sanjay Reddy
No ratings yet
Spark
Document1 page
Spark
Josue Rueda Garcia
No ratings yet
KNN Code
Document2 pages
KNN Code
anh.ln
No ratings yet
National University of Technology UA 34 LAB AI OEL 1
Document5 pages
National University of Technology UA 34 LAB AI OEL 1
ongitsfarax
No ratings yet
Classification Algorithm Python Code 1567761638
Document4 pages
Classification Algorithm Python Code 1567761638
Awanit Kumar
No ratings yet
Sodapdf
Document1 page
Sodapdf
Nathon Mine
No ratings yet
Decision Tree
Document2 pages
Decision Tree
Raghupal reddy Gangula
No ratings yet
House Price Prediction
Document3 pages
House Price Prediction
G Suriyanaraynan
No ratings yet
Appendix PDF
Document5 pages
Appendix PDF
Rama
No ratings yet
KNN
Document2 pages
KNN
Raghupal reddy Gangula
No ratings yet
Installing Spark On Windows Environment
Document16 pages
Installing Spark On Windows Environment
Dr Mohammed Kamal
No ratings yet
ML Lab Record
Document15 pages
ML Lab Record
rr3870044
No ratings yet
# Import Necessary Modules
Document2 pages
# Import Necessary Modules
4NM20IS003 ABHISHEK A
No ratings yet
Django Restframework Tutorial
Document2 pages
Django Restframework Tutorial
ritesh
No ratings yet
Prototype 13
Document1 page
Prototype 13
Yemi Towobola
No ratings yet
Navie
Document1 page
Navie
Raghupal reddy Gangula
No ratings yet
Codes
Document37 pages
Codes
Tame PcAddict
No ratings yet
Sample
Document2 pages
Sample
MAHAKAL (Tushar)
No ratings yet
Exam Informatiqe
Document2 pages
Exam Informatiqe
Badr Eddine Hadji
No ratings yet
20MIS1025 - DecisionTree - Ipynb - Colaboratory
Document4 pages
20MIS1025 - DecisionTree - Ipynb - Colaboratory
Sandip Das
No ratings yet
DP100
Document8 pages
DP100
srimounika srinivas
No ratings yet