Welcome to Scribd!

Syntax

Uploaded by

0% found this document useful (0 votes)

10 views3 pages

This document provides code snippets for common data analysis and machine learning tasks in Python including: 1) Loading and saving CSV data, renaming columns, creating new columns, handling missing values, and filtering data. 2) Grouping, aggregating, and plotting data using methods like groupby, describe, and plotting histograms, bar plots, and subplots. 3) Preprocessing data through scaling, normalization, label encoding, and splitting into train and test sets. 4) Evaluating machine learning models using metrics like mean squared error, r-squared, accuracy scores, and confusion matrices. 5) Tuning hyperparameters of a model using grid search cross-validation.

Original Description:

Original Title

syntax

Copyright

Available Formats

TXT, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as TXT, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

10 views3 pages

Syntax

Uploaded by

Mazhar Mahadzir

Copyright:

Available Formats

Download as TXT, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 3

Search inside document

save to csv

df.to_csv('output.csv', index=False)

change column name

df=df.rename(columns={'xxx': 'zzz'})

create new column

df['xxx_square']=df['xxx']

create array
X=np.array(df.iloc[:1,2])
Y=np.array(df['xxx'])

missing value
df.isnull().sum()

count categorical value

df['xxx].value_counts()

drop delete column

df=df.drop('xxx', axis=1)

label encoding
from sklearn.preprocessing import LabelEncoder
lb=LabelEncoder()
df=['xxx']=lb.fit_transform(df['xxx'])

filter data
df.query('xxx < 1000 and yyy > 10')
df.query('xxx < @aaa and yyy > @bbb')

groupby
df.groupby('xxx')['yyy'].sum()

group aggregate
df.groupby('xxx')['yyy'].agg(['mean','count'])

diff()

Datetimeformat64
df=pd.read_csv('data.csv', parse_dates=['Date'])
or
df['Date']=pd.to_datetime(df['Date'])

map, next to label encoding --- change to Nan if not assign

df['xxx']=df['xxx'].map({'Yes':'0', 'No':'1'})

change value
df.loc[df['xxx']=='aaa', 'xxx']='bbb'

Summary statistics for numerical data

numerical_data = df.select_dtypes(include=[np.number])
numerical_data.describe()

sort values
df.sort_values('xxx', ascending=False)
Plots
df.plot(kind='bar', x='xxx', y='yyy', figsize=(12,5), title='aaa')

Multiple plots
ax = df.plot(kind='scatter', x='datum',
y='Amoxycilin_caps',label='Amoxycilin_caps')
df.plot(kind='scatter', x='datum', y='Ampicloxa', label='Ampicloxa', c='m', ax=ax)
df.plot(kind='scatter', x='datum', y='Ceftriaxone', label='Ceftriaxone', c='y',
ax=ax)
df.plot(kind='scatter', x='datum', y='Ciprofloxacin', label='Ciprofloxacin', c='g',
ax=ax)
df.plot(kind='scatter', x='datum', y='Cotrimoxazole', label='Cotrimoxazole', c='c',
ax=ax)
plt.xlabel('Date')
plt.ylabel('Quantity')

Subplots
fig,(ax1,ax2,ax3,ax4,ax5) = plt.subplots(5, figsize=(10,10))
df1.plot(x='datum', y='Amoxycilin_caps', ax=ax1)
df1.plot(x='datum', y='Ampicloxa', c='m', ax=ax2)
df1.plot(x='datum', y='Ceftriaxone', c='y', ax=ax3)
df1.plot(x='datum', y='Ciprofloxacin', c='g', ax=ax4)
df1.plot(x='datum', y='Cotrimoxazole', c='c', ax=ax5)

Histogram
sns.boxplot(x='variable', y='value', data=pd.melt(df.iloc[:,1:6]))
df.hist()

Scaling
Standardization, mean=0, sd=1
Normalization, data scaled netween 0 and 1

from sklearn.preprocessing import StandardScaler, MinMaxScaler

ss=StandardScaler()
dfScaled=ss.fit_transform(df[['xxx','yyy']])

mms=MinMaxScaler()
dfscaled=mms.fit_transform(df['xxx'])

# random splitting data to train and test data

from sklearn.model_selection import train_test_split
xtrain, xtest, ytrain, ytest=train_test_split(xScaled, y, test_size=0.3,
random_state=None)

Evaluation
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score
rmse=np.sqrt(mean_squared_error(y, predict))
rSquared=r2_score(y, predict)
accuracy=accuracy_score(y, predict)

Append new row into dataframe

# creting table to store accuracy scores of the models
table = pd.DataFrame(columns=['Model','Train Accuracy %','Test Accuracy %'])
newRow = {'Model': 'KNN model', 'Train Accuracy %': trainAccScore,'Test Accuracy
%': testAccScore}
table = table.append(newRow, ignore_index=True)
Confusion Matrix
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
cm=ConfusionMatrixDisplay(confusion_matrix(ytest,testPredict),display_labels=['Grad
e A','Grade B','Grade C'])

Prediction
trainPredict=model.predict(xtrain)
testPredict=model.predict(xtest)

Tuning Hyperparameter
from sklearn.model_selection import GridSearchCV

knn=KNeighborsClassifier()
params={'n_neighbors':[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]}

bestParam=GridSearchCV(estimator=knn,param_grid=params).fit(xtrain,ytrain).best_par
ams_
bestParam

Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
Document9 pages
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
rameshb87
100% (3)
Data Science Basics Cheatsheet
Document1 page
Data Science Basics Cheatsheet
acutotu
67% (3)
Monthly Safety Plan English
Document28 pages
Monthly Safety Plan English
Mazhar Mahadzir
100% (1)
Subsetting Data in R
Document44 pages
Subsetting Data in R
Goyobod
No ratings yet
Pyspark Vs Pandas Cheatsheet
Document3 pages
Pyspark Vs Pandas Cheatsheet
api-261489892
No ratings yet
Identifying Appropriate Test Statistic
Document19 pages
Identifying Appropriate Test Statistic
Amina Cassandra
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Pandas DataFrame Notes
Document6 pages
Pandas DataFrame Notes
Nhan Nguyen
100% (1)
Attachment A - Scope of Work
Document7 pages
Attachment A - Scope of Work
Mazhar Mahadzir
No ratings yet
Stata Excel Spreadsheet
Document43 pages
Stata Excel Spreadsheet
Ali
No ratings yet
Module 6 - Non-Parametric Statistics
Document21 pages
Module 6 - Non-Parametric Statistics
Gabrielle Marie Rivera
No ratings yet
Project Charter Example
Document2 pages
Project Charter Example
Mazhar Mahadzir
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
PETRONAS HSE Capability Questionnaire
Document11 pages
PETRONAS HSE Capability Questionnaire
Mazhar Mahadzir
100% (2)
Cheat Sheet: The Pandas Dataframe Object: Preliminaries Get Your Data Into A Dataframe
Document10 pages
Cheat Sheet: The Pandas Dataframe Object: Preliminaries Get Your Data Into A Dataframe
Raju Rimal
100% (1)
Machine Learning Notes: 2. All The Commands For Eda
Document5 pages
Machine Learning Notes: 2. All The Commands For Eda
naveen katta
100% (1)
The Standard Normal Distribution
Document23 pages
The Standard Normal Distribution
Nors Pataytay
No ratings yet
Statistics in Research
Document26 pages
Statistics in Research
Stevoh
100% (2)
EDA Cheat Sheet - Exploratory Data Analysis
Document2 pages
EDA Cheat Sheet - Exploratory Data Analysis
Vanshika Rastogi
No ratings yet
Pandas - PySpark Equivalents-1
Document3 pages
Pandas - PySpark Equivalents-1
Rufai
No ratings yet
Pandas
Document5 pages
Pandas
Smart Crazy
No ratings yet
Data Clearning
Document7 pages
Data Clearning
lequangtrung010389
No ratings yet
EDA Plots Code
Document13 pages
EDA Plots Code
prashant yadav
No ratings yet
DATASCI112 Midterm Cheat Sheet
Document2 pages
DATASCI112 Midterm Cheat Sheet
Niall Thomas Kehoe
No ratings yet
Data Analysis W Pandas
Document4 pages
Data Analysis W Pandas
x7jn4sxdn9
No ratings yet
Imp Details
Document6 pages
Imp Details
Jyotirmay Sahu
No ratings yet
Pandas Cheat Sheet
Document6 pages
Pandas Cheat Sheet
shan halder
100% (2)
Commands SQL, Python (BASICS)
Document7 pages
Commands SQL, Python (BASICS)
Kuldeep Gangwar
No ratings yet
Python Quiz
Document220 pages
Python Quiz
Ranvitha G
No ratings yet
Medical Management Sujal&harsh
Document16 pages
Medical Management Sujal&harsh
Sujal Patel
No ratings yet
Assignment4
Document4 pages
Assignment4
Priyansh Jain
No ratings yet
Pandas Usefull Code
Document2 pages
Pandas Usefull Code
أحمد موريس
No ratings yet
Code
Document6 pages
Code
Keerti Gulati
No ratings yet
MATH FUNCTION LIBRARY - Aadya Singh-12-E - Aadya Singh
Document16 pages
MATH FUNCTION LIBRARY - Aadya Singh-12-E - Aadya Singh
Hungry-- Joy
No ratings yet
Fuzzy Set
Document20 pages
Fuzzy Set
Mohshin Khan
No ratings yet
R Commands: Appendix B
Document5 pages
R Commands: Appendix B
Shafayet Hossain
No ratings yet
Module 1 Python Basics - Programs
Document13 pages
Module 1 Python Basics - Programs
Megha Trivedi
No ratings yet
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
Document7 pages
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
gprasadatvu
No ratings yet
Import As: Cal - Pivot Array Array
Document12 pages
Import As: Cal - Pivot Array Array
Sanodariya Kshitij Ashvinchandra (B19ME075)
No ratings yet
Dba Midterm Cheatsheet
Document2 pages
Dba Midterm Cheatsheet
Soo Bin Teo
No ratings yet
Computer Science 1 - Csci 1100 Test 3 - Version 2 November 21, 2013
Document8 pages
Computer Science 1 - Csci 1100 Test 3 - Version 2 November 21, 2013
PatSramek
No ratings yet
EE 559 HW2Code PDF
Document7 pages
EE 559 HW2Code PDF
Ali
No ratings yet
DS Programs
Document11 pages
DS Programs
satishkokane.ydp
No ratings yet
Computer Project Full
Document23 pages
Computer Project Full
Zainab Nagina
No ratings yet
Functions Python Practice
Document8 pages
Functions Python Practice
TheAncient01
No ratings yet
Ip Project by Nitin Rajawat PDF
Document10 pages
Ip Project by Nitin Rajawat PDF
NITIN RAJAWAT
No ratings yet
Lecture 2-Tuples
Document15 pages
Lecture 2-Tuples
ahmed arab
No ratings yet
Python Funstinos and OOPS
Document7 pages
Python Funstinos and OOPS
yipemet
No ratings yet
Cau1 Rom Import From Import Import Import As Import As From Import
Document4 pages
Cau1 Rom Import From Import Import Import As Import As From Import
Kenny Long
No ratings yet
LInear Regression
Document2 pages
LInear Regression
Aqid Khatkhatay
No ratings yet
Python Tutorial 3
Document7 pages
Python Tutorial 3
queen setilo
No ratings yet
ML p4
Document2 pages
ML p4
Nathon Mine
No ratings yet
Mercedes-Benz Greener Manufacturing Ai
Document16 pages
Mercedes-Benz Greener Manufacturing Ai
Puji
0% (1)
ML 1-10
Document53 pages
ML 1-10
22128008
No ratings yet
Cardio Screen RF
Document27 pages
Cardio Screen RF
The Mind
100% (1)
Sample Json
Document2 pages
Sample Json
yohanesderese04
No ratings yet
Nadya Faudilla - 1806198471 - Geologi Komputasi 5 Dan 6 - Jupyter Notebook
Document9 pages
Nadya Faudilla - 1806198471 - Geologi Komputasi 5 Dan 6 - Jupyter Notebook
Emir Rakhim
No ratings yet
ADTs
Document13 pages
ADTs
Muhammad Jamal Butt - 81914/TCHR/EJHM
No ratings yet
Python's "Black Magic"?
Document29 pages
Python's "Black Magic"?
srasrk11
No ratings yet
4 and 5
Document4 pages
4 and 5
Vyom
No ratings yet
Birla Institute of Technology & Science, Pilani EEE G613: Advanced Digital Signal Processing Semester I: 2021-2022
Document6 pages
Birla Institute of Technology & Science, Pilani EEE G613: Advanced Digital Signal Processing Semester I: 2021-2022
parul
No ratings yet
Assignment 1
Document12 pages
Assignment 1
Vivek Kumar
No ratings yet
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
Document23 pages
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
sumaira khan
No ratings yet
Practicle6 (Code)
Document4 pages
Practicle6 (Code)
Pallavi Gaikwad
No ratings yet
Ass
Document5 pages
Ass
Taqwa Elsayed
No ratings yet
Content Pandas Cheat Sheet
Document9 pages
Content Pandas Cheat Sheet
Turya Ganguly
No ratings yet
20mid0116 VL2020210104677 Ast03
Document15 pages
20mid0116 VL2020210104677 Ast03
Mrunalini Reddy
No ratings yet
''' Function To Load Dataset ''': Open List Range Len Float
Document3 pages
''' Function To Load Dataset ''': Open List Range Len Float
cnd
No ratings yet
Unit 4
Document38 pages
Unit 4
goneakshata
No ratings yet
Project Template
Document17 pages
Project Template
Mazhar Mahadzir
No ratings yet
Dashboard Planning and Outlining
Document11 pages
Dashboard Planning and Outlining
Mazhar Mahadzir
No ratings yet
Data Visualization For Python - Sales Retail - r1
Document19 pages
Data Visualization For Python - Sales Retail - r1
Mazhar Mahadzir
No ratings yet
Testing Your Dashboard
Document19 pages
Testing Your Dashboard
Mazhar Mahadzir
No ratings yet
Bias Variance Overfitting
Document3 pages
Bias Variance Overfitting
Mazhar Mahadzir
No ratings yet
Pre-Qualification Questionnaire: Confidential
Document4 pages
Pre-Qualification Questionnaire: Confidential
Mazhar Mahadzir
No ratings yet
Gas Calibration Method v2
Document9 pages
Gas Calibration Method v2
Mazhar Mahadzir
No ratings yet
Pocket Bolt Reference Chart: Sealing Global - Servicing Local
Document2 pages
Pocket Bolt Reference Chart: Sealing Global - Servicing Local
Mazhar Mahadzir
No ratings yet
1.1 2.13. Practical Example. Descriptive Statistics - Lesson
Document26 pages
1.1 2.13. Practical Example. Descriptive Statistics - Lesson
balamurugan Srinivasan
No ratings yet
PMQP PPT Se A 23
Document14 pages
PMQP PPT Se A 23
chirag shewale
No ratings yet
Data Preprocessing
Document32 pages
Data Preprocessing
Abdullah Al Mahmood Yasir
No ratings yet
Curve Fittings
Document314 pages
Curve Fittings
bidom
No ratings yet
Mean Median Mode
Document28 pages
Mean Median Mode
Es Am
No ratings yet
Quantification of Uncertainties in The 100-Year Flow at An Ungaged Site Near A Gaged Station and Its Application in Georgia
Document8 pages
Quantification of Uncertainties in The 100-Year Flow at An Ungaged Site Near A Gaged Station and Its Application in Georgia
Alvaro García Baeza
No ratings yet
Econometrics
Document320 pages
Econometrics
Nikshep Antony
No ratings yet
1 SM
Document8 pages
1 SM
Khautsar
No ratings yet
Final Report Project Assignment: Industrial Engineering - 2
Document434 pages
Final Report Project Assignment: Industrial Engineering - 2
Nada
0% (1)
Chapter 10 BusMath41
Document38 pages
Chapter 10 BusMath41
piskador padayon
No ratings yet
Basic Statistics II
Document36 pages
Basic Statistics II
Abhijit Ash
No ratings yet
McDonaldMoon Ho2002 PDF
Document19 pages
McDonaldMoon Ho2002 PDF
Valarrmathi Srinivasan
No ratings yet
Chi Square and Annova
Document29 pages
Chi Square and Annova
Lloyd Lamington
100% (1)
Sankhya Data Science Course
Document22 pages
Sankhya Data Science Course
S
No ratings yet
Ce 023 Module 5 and 6
Document9 pages
Ce 023 Module 5 and 6
George Yanela
No ratings yet
Reading 8: Probability Concepts
Document31 pages
Reading 8: Probability Concepts
Alex Paul
No ratings yet
Chi Lab
Document4 pages
Chi Lab
api-319923127
No ratings yet
Data Splitting and Bias Variance Tradeoff
Document14 pages
Data Splitting and Bias Variance Tradeoff
Eileen Lovegood
No ratings yet
Python Programming (Int 213) : Report For House Price Prdiction
Document23 pages
Python Programming (Int 213) : Report For House Price Prdiction
Sachin Patel
No ratings yet
Conditional Probability and Table
Document11 pages
Conditional Probability and Table
Fatah Umasugi
No ratings yet
Data Science MCQ
Document4 pages
Data Science MCQ
gaurav
100% (1)
202003271457478511akash Heteroscedasticity
Document16 pages
202003271457478511akash Heteroscedasticity
Sayed Salar
No ratings yet
Bayesian Methods For Dealing With Missing Data Problems: Journal of The Korean Statistical Society April 2018
Document18 pages
Bayesian Methods For Dealing With Missing Data Problems: Journal of The Korean Statistical Society April 2018
Andra Coman
No ratings yet
3017 Tutorial 4 Solutions
Document3 pages
3017 Tutorial 4 Solutions
Nguyễn Hải
No ratings yet