Compare Data Preparation Methods For The Wine Classification Dataset

Uploaded by

Nguyen Xuan Vi

0% found this document useful (0 votes)

6 views2 pages

for data science purpouses

Original Title

compare data preparation methods for the wine classification dataset

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

for data science purpouses

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

6 views2 pages

Compare Data Preparation Methods For The Wine Classification Dataset

Uploaded by

Nguyen Xuan Vi

for data science purpouses

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

# compare data preparation methods for the wine classification dataset

from numpy import mean

from numpy import std
from pandas import read_csv
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import QuantileTransformer
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.decomposition import PCA
from sklearn.decomposition import TruncatedSVD
from matplotlib import pyplot

# prepare the dataset

def load_dataset():
# load the dataset
url =
'https://raw.githubusercontent.com/jbrownlee/Datasets/master/wine.csv'
df = read_csv(url, header=None)
data = df.values
X, y = data[:, :-1], data[:, -1]
# minimally prepare dataset
X = X.astype('float')
y = LabelEncoder().fit_transform(y.astype('str'))
return X, y

# evaluate a model
def evaluate_model(X, y, model):
# define the cross-validation procedure
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv,
n_jobs=-1)
return scores

# get modeling pipelines to evaluate

def get_pipelines(model):
pipelines = list()
# normalize
p = Pipeline([('s',MinMaxScaler()), ('m',model)])
pipelines.append(('norm', p))
# standardize
p = Pipeline([('s',StandardScaler()), ('m',model)])
pipelines.append(('std', p))
# quantile
p = Pipeline([('s',QuantileTransformer(n_quantiles=100,
output_distribution='normal')), ('m',model)])
pipelines.append(('quan', p))
# discretize
p = Pipeline([('s',KBinsDiscretizer(n_bins=10, encode='ordinal',
strategy='uniform')), ('m',model)])
pipelines.append(('kbins', p))
# pca
p = Pipeline([('s',PCA(n_components=7)), ('m',model)])
pipelines.append(('pca', p))
# svd
p = Pipeline([('s',TruncatedSVD(n_components=7)), ('m',model)])
pipelines.append(('svd', p))
return pipelines

# get the dataset

X, y = load_dataset()
# define the model
model = LogisticRegression(solver='liblinear')
# get the modeling pipelines
pipelines = get_pipelines(model)
# evaluate each pipeline
results, names = list(), list()
for name, pipeline in pipelines:
# evaluate
scores = evaluate_model(X, y, pipeline)
# summarize
print('>%s: %.3f (%.3f)' % (name, mean(scores), std(scores)))
# store
results.append(scores)
names.append(name)
# plot the result
pyplot.boxplot(results, labels=names, showmeans=True)
pyplot.show()

Code AI
Document2 pages
Code AI
Lép Đây Chạy Đi
No ratings yet
Google Colab Material
Document4 pages
Google Colab Material
Zack Zack
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
Document20 pages
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
Saloni Tuli
No ratings yet
SwellHEV Assignment
Document2 pages
SwellHEV Assignment
Abdulrhman Alshameri
No ratings yet
Classification 3
Document1 page
Classification 3
Elisée TEGUE
No ratings yet
KNN Code
Document2 pages
KNN Code
anh.ln
No ratings yet
Machinelearning - Alisya Athirah Binti Mohd Huzzainny (Updated)
Document26 pages
Machinelearning - Alisya Athirah Binti Mohd Huzzainny (Updated)
Alisya Athirah
No ratings yet
Data Warehouse & Data Mining Lab Assignment-4 Name:Sai Subhikshaa.K.A REG NO:19MID0037 Code
Document6 pages
Data Warehouse & Data Mining Lab Assignment-4 Name:Sai Subhikshaa.K.A REG NO:19MID0037 Code
Vasumathi R 19MID0045
No ratings yet
KNN
Document2 pages
KNN
Raghupal reddy Gangula
No ratings yet
Amazon-Fine-Food-Review - K-Means, Agglomerative & DBSCAN Clustering
Document79 pages
Amazon-Fine-Food-Review - K-Means, Agglomerative & DBSCAN Clustering
krishna
No ratings yet
Exp 3
Document4 pages
Exp 3
jay
No ratings yet
Classification Algorithm Python Code 1567761638
Document4 pages
Classification Algorithm Python Code 1567761638
Awanit Kumar
No ratings yet
Logistic Regression
Document2 pages
Logistic Regression
Raghupal reddy Gangula
No ratings yet
Confronto Classificazione
Document2 pages
Confronto Classificazione
Mirko Cicala
No ratings yet
Program 11
Document1 page
Program 11
dishanthpatel242
No ratings yet
Program 11
Document1 page
Program 11
dishanthpatel242
No ratings yet
20MIS1025 - DecisionTree - Ipynb - Colaboratory
Document4 pages
20MIS1025 - DecisionTree - Ipynb - Colaboratory
Sandip Das
No ratings yet
Exp 5
Document8 pages
Exp 5
jay
No ratings yet
Correction
Document3 pages
Correction
bougmazisoufyane
No ratings yet
Entrenamiento
Document18 pages
Entrenamiento
hugobernal
No ratings yet
Machine Learnin
Document23 pages
Machine Learnin
Manoj Kumar 1183
100% (1)
Vid 4
Document6 pages
Vid 4
diyalap01
No ratings yet
ML Lab Programs
Document23 pages
ML Lab Programs
Roopa 18-19-36
No ratings yet
Assignment 4 On Clustering Techniques
Document2 pages
Assignment 4 On Clustering Techniques
06–Yash Bhusal
No ratings yet
Codes
Document37 pages
Codes
Tame PcAddict
No ratings yet
Creation of Series Using List, Dictionary & Ndarray
Document65 pages
Creation of Series Using List, Dictionary & Ndarray
rizwana fathima
No ratings yet
Supervised Learning in R Classification
Document7 pages
Supervised Learning in R Classification
Octavio Flores
No ratings yet
Big Data Merged
Document7 pages
Big Data Merged
Ingame Id
No ratings yet
A2 Vishal Borra
Document2 pages
A2 Vishal Borra
vishal.borra
No ratings yet
Code
Document2 pages
Code
karthikeyanmlops
No ratings yet
ML Assignment 7
Document4 pages
ML Assignment 7
Sandeep Kaleshriya
No ratings yet
Awab R 2.5
Document3 pages
Awab R 2.5
silvapi1994
No ratings yet
Example - 1
Document5 pages
Example - 1
Ishani Mehta
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
Document7 pages
(Big Data Analytics With PySpark) (CheatSheet)
Niwahereza Dan
No ratings yet
7-2 Ass
Document3 pages
7-2 Ass
Ramya Anusha
No ratings yet
2 Naive Bayee Algorithm - Jupyter Notebook
Document2 pages
2 Naive Bayee Algorithm - Jupyter Notebook
venkatesh m
No ratings yet
Navie
Document1 page
Navie
Raghupal reddy Gangula
No ratings yet
Codes
Document6 pages
Codes
Vamshi Krishna
No ratings yet
23MCA1104 - EX10 - KMEANS - Ipynb - Colab
Document1 page
23MCA1104 - EX10 - KMEANS - Ipynb - Colab
Piyush Verma
No ratings yet
Data Analysis and Evaluation Methods Comparison
Document11 pages
Data Analysis and Evaluation Methods Comparison
Jelena Nađ
No ratings yet
ML Lab 4
Document2 pages
ML Lab 4
trismatthew1234
No ratings yet
9 A.validation Methods - Jupyter Notebook
Document3 pages
9 A.validation Methods - Jupyter Notebook
venkatesh m
No ratings yet
Soft Sensor Code
Document4 pages
Soft Sensor Code
Marvin Martins
No ratings yet
Q 3 X 1
Document4 pages
Q 3 X 1
言哲凡
No ratings yet
Soft Sensor Code
Document4 pages
Soft Sensor Code
Marvin Martins
No ratings yet
Clustering
Document2 pages
Clustering
mani
No ratings yet
ML - Practical File
Document15 pages
ML - Practical File
Jatin Mathur
No ratings yet
Continuous SVM RF
Document2 pages
Continuous SVM RF
MOHAMMAD RIZQI AMIR HAMZAH
No ratings yet
Import Pandas As PD
Document3 pages
Import Pandas As PD
KazaValiShaik
No ratings yet
All Classifair
Document3 pages
All Classifair
Khải Trần
No ratings yet
Ip-12-2023-24 Practical File
Document19 pages
Ip-12-2023-24 Practical File
kashinathchandak
No ratings yet
Pandasmatplotlib Practical File
Document15 pages
Pandasmatplotlib Practical File
godayushshrivastava
No ratings yet
Models
Document2 pages
Models
Minh Sơn
No ratings yet
ML Lab6
Document3 pages
ML Lab6
Kunwar Saraf
No ratings yet
XII - Informatics Practices (LAB MANUAL)
Document42 pages
XII - Informatics Practices (LAB MANUAL)
ghun assudani
No ratings yet
MLP Sous Keras: A. MLP Pour Une Classification Binaire
Document2 pages
MLP Sous Keras: A. MLP Pour Une Classification Binaire
Soufiane Biggi
No ratings yet
Sample
Document2 pages
Sample
MAHAKAL (Tushar)
No ratings yet
Agglomerative Clustering
Document2 pages
Agglomerative Clustering
JVM ocean
No ratings yet
7-Iris Species Classification and Naïve Bayes-NLP-SP22
Document3 pages
7-Iris Species Classification and Naïve Bayes-NLP-SP22
Crypto Genius
No ratings yet
Scala Data Analysis Cookbook
From Everand
Scala Data Analysis Cookbook
Manivannan Arun
No ratings yet