You are on page 1of 8

BÀI TẬP CHƯƠNG 5

1. Nhập dữ liệu từ file sẵn có Supermarket_Data.xlsx và chọn cột Target phù hợp

Nhập dữ liệu

Sử dụng Preprocess để tiền xử lý dữ liệu


Sử dụng Data Sampler để thu được bộ dữ liệu mới gồm 5000 biến
2. Sử dụng phương pháp Hierarchical Clustering và K-mean phân cụm dữ liệu
a) Mô hình xây dựng
b) Chọn phân cụm theo kết quả của Hierarchical Clustering:

Sử dụng công cụ Distances để tùy chọn cách đo lượng phân cụm

Chọn phương pháp Hierarchical Clustering, thực hiện các phân cụm phù hợp
Sử dụng Silhouette Plot để xem ta phân cụm có hợp lý chưa bằng cách quan sát
chỉ số Silhoette của từng cụm
(chỉ số được đánh giá là phù hợp khi nó không âm và tiến dần về 1)
- Theo kết quả của Hierarchical Clustering, nên chia dữ liệu thành 2 cụm là hợp
lý nhất vì quan sát chỉ số Silhouette của cụm 1 và cụm 2 thì thấy cả hai cụm đều
không âm.
c) Chọn phân cụm theo kết quả của k-Means
Chọn k-Means để tiến hành phân cụm
- Theo kết quả như từ hình trên, ta thấy phân thành 2 cụm là tối ưu nhất vì
có chỉ số cao nhất (0.617>0).
Sử dụng Silhouette Plot để xem ta phân cụm có hợp lý chưa
Từ kết quả trên cho thấy cả 2 cụm dữ liệu đều lớn>0 và không có giá trị âm

You might also like