You are on page 1of 2

Các dạng bài tập mẫu thi thực hành

Dạng 1. Phân lớp nhị phân. 1a (2đ). Đọc vào file user_data.csv được biến dataframe df.
Hiển thị df. 1b (2đ). Sử dụng pháp chuyển đổi Label encoding, tạo cột mới
Gender_number của df để chuyển cột Gender gía trị chữ thành giá trị số. Hiển thị df.
1c(2đ). Từ dataframe df, trích chọn dataframe X gồm các cột
Gender_numer,Age,EstimatedSalary ,giá trị nhãn y là cột Purchased, hiển thị X,y. 1d
(1đ). Chia ngẫu nhiên X,y thành X_train,y_train và X_test,y_test theo tỉ lệ 80:20. Hiển
thị X_test,y_test. 1e (2đ). Sử dụng một trong các kỹ thuật phân lớp nhị phân sau:
Logistics Regression, SVM, Adaboost để huấn luyện mô hình học máy với tập dữ liệu
X_train,y_train. 1g (1đ). Dự báo kết quả và đánh giá độ chính xác dự báo trên tập
X_test,y_test.

Dạng 2. Phân lớp nhiều nhãn 2a (2đ). Đọc vào file Iris.csv được biến dataframe df. Hiển
thị df. 2b (2đ). Sử dụng pháp chuyển đổi Label encoding, tạo cột mới Species_number
của df để chuyển cột Species gía trị chữ thành giá trị số. Hiển thị df. 2c (2đ). Từ
dataframe df, trích chọn dataframe X gồm các cột SepalLengthCm,
SepalWidthCm,PetalLengthCm,PetalWidthCm, giá trị nhãn y là cột Species_number,
hiển thị X,y. 2d (1đ). Chia ngẫu nhiên X,y thành X_train,y_train và X_test,y_test theo tỉ
lệ 80:20. Hiển thị X_test,y_test. 2e (2đ). Sử dụng một trong các kỹ thuật phân lớp sau:
KNN, Logistics Regression, SVM, Decision tree, Random forest, XgBoost để huấn luyện
mô hình học máy với tập dữ liệu X_train,y_train. 2g (1đ). Dự báo kết quả và đánh giá độ
chính xác dự báo trên tập X_test,y_test. và dự báo kết quả nhãn của chỉ một mẫu dữ liệu
mới với 4 thành phần SepalLengthCm, SepalWidthCm,PetalLengthCm,PetalWidthCm
như sau: x=[4.5, 3.0, 1.4, 0.25]

Dạng 3. Phân cụm với K-means 3a (2đ). Đọc vào file car data.csv được biến dataframe
df. Hiển thị df. 3b (2đ). Sử dụng pháp chuyển đổi Label encoding, tạo cột mới
Fuel_Type_number của df để chuyển cột Fuel_Type gía trị chữ thành giá trị số. Hiển thị
df. 3c (2đ). Từ dataframe df, trích chọn dataframe X gồm các cột
Selling_Price,Present_Price,Kms_Driven,Fuel_Type_number. Hiển thị X. 3d (2đ). Phân
cụm tập dữ liệu X thành 5 cụm bằng thuật toán K-means. In tâm của các cụm thu được.
3e (2đ). In chỉ số cụm chứa phần tử thứ 5 của tập X tức là phần từ X[4,:].

Dạng 4. Hồi quy với phép hồi quy tuyến tính.

4a (2đ). Đọc vào file housing.csv được biến dataframe df. Hiển thị df.

4b (2đ). Từ dataframe df, trích chọn dataframe X gồm 5 cột:


Avg. Area Income, Avg. Area House Age,Avg. Area Number of Rooms,Avg.
Area Number of Bedrooms,Area Population,giá trị nhãn y là cột Price, hiển thị X,y.

4c (1đ). Chia ngẫu nhiên X,y thành X_train,y_train và X_test,y_test theo tỉ lệ 80:20. Hiển
thị X_test,y_test.

4d (2đ). Sử dụng kỹ thuật hồi quy tuyến tính để huấn luyện mô hình hồi quy với tập dữ
liệu X_train,y_train.

4e (2đ). Dự báo kết quả và đánh giá độ chính xác dự báo trên tập X_test,y_test.

4g (1đ). Ước lượng giá y của căn hộ khi biết các giá trị

5 thành phần của căn hộ Avg. Area Income, Avg. Area House Age,Avg. Area
Number of Rooms,Avg. Area Number of Bedrooms,Area Population, được cho như sau:
x= [61200.06718,5.60588984,7.51272743,5.13,35882.1594]

You might also like