You are on page 1of 2

Lê Thị Anh Thư – 31211025419

Lab 1 – PHÂN CỤM DỮ LIỆU (CLUSTERING)


1. File dữ liệu từ file Supermarket_Data.xlsx và chọn cột target phù hợp
2. Sử dụng phương pháp Hierarchical clustering và k-Means phân cụm dữ liệu
a. Chụp màn hình xây dựng mô hình:

b. Theo kết quả của Hierarchical Clustering nên chọn phân cụm như thế nào,
giải thích và chụp hình minh chứng kết quả bên dưới:
Chọn phân cụm với ma trận khoảng cách Eclidean, Linkage Complete, Height
ratio là 75,8%
Kết quả cho ra sẽ chia ra được 4 cụm:
c. Theo kết quả của K-Means nên chọn phân cụm như thế nào, giải thích và
chụp hình minh chứng kết quả bên dưới:
Theo kết quả của K-Means, nếu ước lượng phân từ 2 đến 8 cụm thì trường hợp
phân thành 8 cụm sẽ cho ra kết quả tốt nhất vì có chỉ số Silhouette Plot cao
nhất.
Sử dụng độ đo Silhouette Plot, chọn chỉ số Manhattan vì chỉ số này cho kết quả
tốt nhất (giá trị Silhouette Plot lớn hơn các chỉ số còn lại và phần âm ít hơn).

You might also like