Scikit Learn CheatSheet BFCS0011

blog.faradars.
org ‫مجله فرادرس‬ ‫ – تقلبنامه پایتون برای علم داده‬BFCS0011
Scikit-Learn ‫کتابخانه‬
Scikit-Learn ‫معرفی کتابخانه‬

‫) برای زبان پایتون است که طیفی از‬Open Source( »‫ یک کتابخانه «متنباز‬،)Scikit-learn( »‫«سایکیتلِرن‬
‫ «اعتبارسنجی‬،)Data Pre-Processing( »‫ «پیشپردازش دادهها‬،)Machine Learning( »‫الگوریتمهای «یادگیری ماشین‬
.‫) را با استفاده از یک رابط یکپارچه پیادهسازی یمکند‬Visualization( »‫) و «بصریسازی‬Cross Validation( »‫متقابل‬
‫یک مثال پایهای‬
>>> from sklearn import neighbors, datasets, preprocessing

>>> from sklearn.model_selection import train_test_split
>>> from sklearn.metrics import accuracy_score
>>> iris = datasets.load_iris()
>>> X, y = iris.data[:, :2], iris.target
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33)
>>> scaler = preprocessing.StandardScaler().fit(X_train)
>>> X_train = scaler.transform(X_train)
>>> X_test = scaler.transform(X_test)
>>> knn = neighbors.KNeighborsClassifier(n_neighbors=5)
>>> knn.fit(X_train, y_train)
>>> y_pred = knn.predict(X_test)
>>> accuracy_score(y_test, y_pred)
)Loading The Data( ‫بارگذاری دادهها‬
‫ دیگر انواعی‬.‫ ذخیره شده باشند‬SciPy ‫ یا ماتریس خلوت‬NumPy ‫دادهها باید به صورت عددی و آرایههای‬
.‫ نیز قابل پذیرش هستند‬Pandas ‫ مانند دیتافریم‬،‫که قابل تبدیل به آرایههای عددی هستند‬
>>> import numpy as np
>>> X = np.random.random((10,5))
>>> y = np.array(['M','M','F','F','M','F','M','M','F','F','F'])
>>> X[X < 0.7] = 0
)Training And Test Data( ‫دادههای آموزش و آزمون‬
>>> from sklearn.model_selection import train_test_split

>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
.‫ به این لینک مراجعه فرمایید‬،‫برای مشاهده دیگر «تقلبنامههای» مجله فرادرس‬

blog.faradars.org ‫مجله فرادرس‬ ‫ – تقلبنامه پایتون برای علم داده‬BFCS0011
)Preprocessing The Data( ‫پیشپردازش دادهها‬

)Encoding Categorical Features( ‫رمزنگاری ویژیگهای طبقهای‬ )Standardization( ‫استانداردسازی‬
>>> from sklearn.preprocessing import LabelEncoder >>> from sklearn.preprocessing import StandardScaler
>>> enc = LabelEncoder() >>> scaler = StandardScaler().fit(X_train)
>>> y = enc.fit_transform(y) >>> standardized_X = scaler.transform(X_train)
>>> standardized_X_test = scaler.transform(X_test)
)Missing Values( ‫جایگذاری مقادیر ناموجود‬ )Normalization( ‫نرمالسازی‬

>>> from sklearn.preprocessing import Imputer >>> from sklearn.preprocessing import Normalizer
>>> imp = Imputer(missing_values=0, strategy='mean', axis=0) >>> scaler = Normalizer().fit(X_train)
>>> imp.fit_transform(X_train) >>> normalized_X = scaler.transform(X_train)
>>> normalized_X_test = scaler.transform(X_test)
)Polynomial Features( ‫ساخت ویژیگهای چند جملهای‬ )Binarization( ‫دودوییسازی‬

>>>from sklearn.preprocessing import PolynomialFeatures >>> from sklearn.preprocessing import Binarizer
>>> poly = PolynomialFeatures(5) >>> binarizer = Binarizer(threshold=0.0).fit(X)
>>> poly.fit_transform(X) >>> binary_X = binarizer.transform(X)
‫ساخت مدل‬
)Supervised Learning Estimators( ‫برآوردگرهای یادگیری نظارت شده‬

)Linear Regression( ‫رگرسیون خطی‬
>>> from sklearn.linear_model import LinearRegression
>>> lr = LinearRegression(normalize=True)
)Support Vector Machines | SVM( ‫ماشین بردار پشتیبان‬
>>> from sklearn.svm import SVC
>>> svc = SVC(kernel='linear')
)Naive Bayes( ‫نایو بیز‬
>>> from sklearn.naive_bayes import GaussianNB
>>> gnb = GaussianNB()
)K-Nearest Neighbors | KNN( ‫ نزدیکترین همساییگ‬K
>>> from sklearn import neighbors
>>> knn = neighbors.KNeighborsClassifier(n_neighbors=5)
)Unsupervised Learning Estimators( ‫برآوردگرهای یادگیری نظارت نشده‬
)K Means( ‫ میانگین‬K )Principal Component Analysis ( ‫تحلیل مولفه اسایس‬
>>> from sklearn.cluster import KMeans >>> from sklearn.decomposition import PCA
>>> k_means = KMeans(n_clusters=3, random_state=0) >>> pca = PCA(n_components=0.95)

)Model Fitting( ‫برازش مدل‬

)Supervised Learning( ‫یادگیری نظارت شده‬
‫ >>> برازش مدل برای دادهها‬lr.fit(X, y)
>>> knn.fit(X_train, y_train)
)Unsupervised Learning( ‫یادگیری نظارت نشده‬

‫ >>> برازش مدل برای دادهها‬k_means.fit(X_train)
‫ >>> برازش برای دادهها و سپس تبدیل آن‬pca_model = pca.fit_transform(X_train)
)Prediction( ‫پیشبیین‬
‫برآوردگرهای نظارت شده‬
‫ >>> پیشبیین برچسبها‬y_pred = svc.predict(np.random.random((2,5)))
‫ >>> پیشبیین برچسبها‬y_pred = lr.predict(X_test)
‫ >>> تخمین احتمال یک برچسب‬y_pred = knn.predict_proba(X_test)
‫برآوردگرهای نظارت نشده‬

‫ >>> پیشبیین برچسبها در الگوریتمهای خوشهبندی‬y_pred = k_means.predict(X_test)
)Model Performance Evaluation( ‫ارزیایب کارایی مدل‬
)Classification Metrics( ‫سنجههای دستهبندی‬

)Accuracy Score( ‫امتیاز صحت‬
‫ >>> روش امتیاز برآوردگر‬knn.score(X_test, y_test)
‫ >>> توابع امتیازدهی متریک‬from sklearn.metrics import accuracy_score
>>> accuracy_score(y_test, y_pred)
)Classification Report( ‫گزارش دستهبندی‬

‫ و‬f1-Score ،)Recall( »‫ «دقت‬،)Precision( »‫ >>> «صحت‬from sklearn.metrics import classification_report
)Support( »‫ >>> «پشتیبان‬print(classification_report(y_test, y_pred))
)Confusion Matrix( ‫ماتریس درهمریختیگ‬

>>> from sklearn.metrics import confusion_matrix
>>> print(confusion_matrix(y_test, y_pred))
)Regression Metrics( ‫سنجههای رگرسیون‬
)R² Score( R2 ‫امتیاز‬

>>> from sklearn.metrics import r2_score
>>> r2_score(y_true, y_pred)

)Mean Absolute Error( ‫میانگین قدر مطلق خطا‬

>>> from sklearn.metrics import mean_absolute_error
>>> y_true = [3, -0.5, 2]
>>> mean_absolute_error(y_true, y_pred)
)Mean Squared Error( ‫میانگین خطای مربعات‬

>>> from sklearn.metrics import mean_squared_error
>>> mean_squared_error(y_test, y_pred)
)Clustering Metrics( ‫سنجههای خوشهبندی‬
)Adjusted Rand Index( Rand ‫اندیس تصادفی شده‬

>>> from sklearn.metrics import adjusted_rand_score
>>> adjusted_rand_score(y_true, y_pred)
)Homogeneity( ‫همگن بودن‬

>>> from sklearn.metrics import homogeneity_score
>>> homogeneity_score(y_true, y_pred)
)V-measure( V ‫اندازه‬
>>> from sklearn.metrics import v_measure_score
>>> metrics.v_measure_score(y_true, y_pred)
)Cross-Validation( ‫اعتبارسنجی متقابل‬
>>> from sklearn.cross_validation import cross_val_score

>>> print(cross_val_score(knn, X_train, y_train, cv=4))
>>> print(cross_val_score(lr, X, y, cv=2))
)Model Tuning( ‫تنظیم مدل‬
)Grid Search( ‫جستوجوی شبکهای‬

>>> from sklearn.grid_search import GridSearchCV
>>> params = {"n_neighbors": np.arange(1,3),
"metric": ["euclidean", "cityblock"]}
>>> grid = GridSearchCV(estimator=knn,
param_grid=params)
>>> grid.fit(X_train, y_train)
>>> print(grid.best_score_)
>>> print(grid.best_estimator_.n_neighbors)

‫‪blog.faradars.org‬‬ ‫مجله فرادرس‬ ‫‪ – BFCS0011‬تقلبنامه پایتون برای علم داده‬
‫بهینهسازی پارامتر تصادفی شده (‪)Randomized Parameter Optimization‬‬

‫‪>>> from sklearn.grid_search import RandomizedSearchCV‬‬
‫‪>>> params = {"n_neighbors": range(1,5),‬‬
‫}]"‪"weights": ["uniform", "distance‬‬
‫‪>>> rsearch = RandomizedSearchCV(estimator=knn,‬‬
‫‪param_distributions=params,‬‬
‫‪cv=4,‬‬
‫‪n_iter=8,‬‬
‫)‪random_state=5‬‬
‫)‪>>> rsearch.fit(X_train, y_train‬‬
‫)_‪>>> print(rsearch.best_score‬‬
‫مجموعه آموزشهای دادهکاوی فرادرس (‪+‬کلیک کنید)‬
‫برای مشاهده دیگر «تقلبنامههای» مجله فرادرس‪ ،‬به این لینک مراجعه فرمایید‪.‬‬
‫جهت آگاهی از آخرین تقلبنامههای منتشر شده‪ ،‬در کانال تلگرام مجله فرادرس عضو شوید‪.‬‬
‫تهیه و تنظیم‪ :‬مجله فرادرس‬
‫منبع‬
‫برای مشاهده دیگر «تقلبنامههای» مجله فرادرس‪ ،‬به این لینک مراجعه فرمایید‪.‬‬

Scikit Learn CheatSheet BFCS0011

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Scikit Learn CheatSheet BFCS0011

Uploaded by

Copyright:

Available Formats

blog.faradars.

org ‫مجله فرادرس‬ ‫ – تقلبنامه پایتون برای علم داده‬BFCS0011

Scikit-Learn ‫معرفی کتابخانه‬

‫یک مثال پایهای‬

>>> from sklearn import neighbors, datasets, preprocessing

)Loading The Data( ‫بارگذاری دادهها‬

)Training And Test Data( ‫دادههای آموزش و آزمون‬

>>> from sklearn.model_selection import train_test_split

.‫ به این لینک مراجعه فرمایید‬،‫برای مشاهده دیگر «تقلبنامههای» مجله فرادرس‬

)Preprocessing The Data( ‫پیشپردازش دادهها‬

)Missing Values( ‫جایگذاری مقادیر ناموجود‬ )Normalization( ‫نرمالسازی‬

)Polynomial Features( ‫ساخت ویژیگهای چند جملهای‬ )Binarization( ‫دودوییسازی‬

)Supervised Learning Estimators( ‫برآوردگرهای یادگیری نظارت شده‬

)Unsupervised Learning Estimators( ‫برآوردگرهای یادگیری نظارت نشده‬

)K Means( ‫ میانگین‬K )Principal Component Analysis ( ‫تحلیل مولفه اسایس‬

.‫ به این لینک مراجعه فرمایید‬،‫برای مشاهده دیگر «تقلبنامههای» مجله فرادرس‬

)Model Fitting( ‫برازش مدل‬

)Unsupervised Learning( ‫یادگیری نظارت نشده‬

‫برآوردگرهای نظارت نشده‬

)Model Performance Evaluation( ‫ارزیایب کارایی مدل‬

)Classification Metrics( ‫سنجههای دستهبندی‬

)Classification Report( ‫گزارش دستهبندی‬

)Confusion Matrix( ‫ماتریس درهمریختیگ‬

)Regression Metrics( ‫سنجههای رگرسیون‬

)R² Score( R2 ‫امتیاز‬

>>> r2_score(y_true, y_pred)

.‫ به این لینک مراجعه فرمایید‬،‫برای مشاهده دیگر «تقلبنامههای» مجله فرادرس‬

)Mean Absolute Error( ‫میانگین قدر مطلق خطا‬

)Mean Squared Error( ‫میانگین خطای مربعات‬

)Clustering Metrics( ‫سنجههای خوشهبندی‬

)Adjusted Rand Index( Rand ‫اندیس تصادفی شده‬

)Homogeneity( ‫همگن بودن‬

)Cross-Validation( ‫اعتبارسنجی متقابل‬

>>> from sklearn.cross_validation import cross_val_score

)Model Tuning( ‫تنظیم مدل‬

)Grid Search( ‫جستوجوی شبکهای‬

.‫ به این لینک مراجعه فرمایید‬،‫برای مشاهده دیگر «تقلبنامههای» مجله فرادرس‬

‫بهینهسازی پارامتر تصادفی شده (‪)Randomized Parameter Optimization‬‬

‫مجموعه آموزشهای دادهکاوی فرادرس (‪+‬کلیک کنید)‬

‫تهیه و تنظیم‪ :‬مجله فرادرس‬

You might also like