You are on page 1of 1

KIỂM TRA GIỮA KÌ

HỌC PHẦN: DATA SCIENCE Thời gian làm bài: 90 phút.


Link nộp bài: https://forms.gle/3rQdEoG4w6nU7xf78

CÂU 1. XỬ LÝ TRÊN EXCEL VỚI CÔNG CỤ SOLVER (3đ)

Một nhà máy dự định sản xuất 5 loại sản phẩm S j (j=1,5). Tất cả 5 loại sản phẩm này đều sử dụng 4 loại
nguyên vật liệu NVLi (i=1,4). Lợi nhuận của mỗi sản phẩm và dự trữ của từng loại nguyên vật liệu được
cho như bảng sau:

Hãy tìm phương án sản xuất các sản phẩm để có được tổng lợi nhuận là lớn nhất.

CÂU 2. XỬ LÝ TRÊN ORANGE.

Cho bộ dữ liệu sau (nhấp vào biểu tượng excel bên dưới HOẶC lấy file excel ở thư mục đi kèm):

Social_Network_Ad
s.csv

I. PHÂN LỚP DỮ LIỆU (4đ)

1. Dùng File widget để load dữ liệu, trong đó UserID loại bỏ (skip), và Purchased là biến mục tiêu
(target), còn lại là thuộc tính (features).
2. Dùng Data Sampler để chia dữ liệu theo tỷ lệ 75% (Training set) và 25% (Test set). Hiển thị các
phần dữ liệu bằng Data Table.
3. Sử dụng các mô hình phân lớp dữ liệu: SVM (SVM, Kernel=RBF, Iterations=500), Logistic
Regression (Lasso, C=1) và Decision Tree cùng với dữ liệu Trainning set để huấn luyện các mô
hình.
4. Tính điểm số của mỗi mô hình bằng Test and Scores dựa trên bộ dữ liệu Test set, bao gồm cả
Confusion matrix và ROC-Curve. Hãy đưa ra nhận xét về tính hiệu quả của mỗi mô hình.
5. Dùng widget Select Column để chọn các cột Gender, Age, và EstimatedSalary (không chọn cột
Purchased) từ bộ dữ liệu Test set. Sau đó, sử dụng dữ liệu tương ứng với các cột này để dự đoán
kết quả bằng Prediction. Sau đó hiển thị kết quả dự báo bằng Data Table.

II. PHÂN CỤM DỮ LIỆU (3đ)

1. Dùng File widget để load dữ liệu, trong đó, loại bỏ 2 cột UserID và Purchased.
2. Phân cụm dữ liệu bằng Hierarchical clustering (Distance=Euclide, Single Linkage), Louvain
Clustering (Distance=Manhattan), và K-Means (Distance=cosine).
3. Hiển thị dữ liệu sau khi phân cụm: bằng Data Table và T-SNE.
4. Vẽ biểu đồ Silhouette cho kết quả phân cụm bằng mỗi phương pháp.

You might also like