You are on page 1of 4

BTVN 5: PHÂN CỤM DỮ LIỆU

Họ tên: Lê Thị Diệu Linh


MSSV: 31221025135
Lab 1-Phân cụm dữ liệu (Clustering)
1. File dữ liệu từ file Supermarket_Data.xlxs và chọn một cột target phù hợp
Bước 1: Trong Orange, chọn File rồi add file Supermarket_Data.xlxs. Sau đó, chọn Outlet-Type
là biến target.

Bước 2: Xử lí dữ liệu
 Ta thấy một số dữ liệu trong bảng bị thiếu, cần bổ sung. Từ File, kéo thả chọn Preprocess
=> chọn Impute Missing Values => Chọn Average/Most frequent

 Ta nhận ra số lượng dữ liệu quá lớn, ta cần giảm bớt số


lượng dữ liệu. Từ Preprocess, kéo thả chọn Data
Sampler. Ở mục Sampling Sampler, trong Fixed
proportion of data, chọn 55% => nhấn Sample Data, ta
được dữ liệu mới với 4688 biến.
2. Sử dụng phương pháp Hierarchical clustering và k-Means phân cụm dữ liệu
a. Chụp màn hình xây dựng mô hình

b. Theo kết quả của Hierachical Clustering nên chọn phân cụm như thế nào, giải thích và
chụp hình minh chứng kết quả bên dưới.
Các bước phân cụm bằng Hierarchical Clustering
Bước 1: Để tính khoảng cách
Từ Data Sampler, kéo thả chọn Distances. Trong Distance Metric, chọn Euclidean.
Bước 2: Để phân cụm dựa trên phân cấp
Từ Distances, kéo thả chọn Hierarchical, xuất hiện hộp thoại Hierachical Clustering
Trong Linkage chọn Complete; trong top N chọn 2 để phân thành 2 cụm
Bước 3: Để đánh giá chỉ số phân cụm cho phương pháp Hierarchical
Từ lệnh Hierarchical Clustering, kéo thả chọn Silhoutte Plot, xuất hiện hộp thoại Silhoutte Plot
Trong mục Distance, chọn Euclidean; trong mục Grouping, chọn Cluster
Kết quả:
Nhận xét: Kết quả cho thấy chỉ số Silhouette Plot lớn nhất có giá trị xấp xỉ 0,819 (tiến tới gần 1)
nên ta thấy việc chia dữ liệu thành 2 cụm là khá hợp lí. Tuy nhiên, nhiều biến vẫn cho chỉ số
Silhouetee Plot âm nên phương pháp phân cụm Hierarchical Clustering chưa thật sự là phương
pháp phù hợp.
c. Theo kết quả của k-Means nên choni phân cụm như thế nào, giải thích và chụp hình
minh chứng kết quả bên dưới
Các bước phân cụm bằng k-Means
Bước 1: Xác định độ dừng của các cụm dữ liệu
Từ lệnh Data Sampler, kéo thả chọn Interactive k-Means, bấm Run Simulation để tự động điều
chỉnh các cụm
Bước 2: Phân cụm dựa trên phân hoạch
Từ Data Sampler, kéo thả chọn k-Means => xuất hiện hộp thoại k-Means
Chọn From 2 to 10 => chỉ số Silhouette Scores tốt nhất ở kết quả 2 cụm (0,149)

Bước 3: Đánh giá chỉ số phân cụm của k-Means


Từ k-Means, kéo thả chọn Silhouette Plot => xuất hiện hộp thoại Silhouette Plot
Trong mục Distance chọn Euclidean; trong mục Grouping chọn Cluster
Bước 4: Kéo thả chọn Data Table để xem kết quả
Kết quả:
Nhận xét: Ta thấy chỉ số Silhouette Plot trong hai cụm có giá trị tiến tới gần 1 (0,579 và 0,578)
nên ta nhận thấy việc chia dữ liệu thành 2 cụm là phù hợp. Bên cạnh đó, ta thấy tất cả chỉ số
Silhouette đều dương => phương pháp phân cụm k-Means là phương pháp phân cụm tốt cho bộ
dữ liệu.
 Kết luận: Ta nên chọn phương pháp phân cụm bằng k-Means để phân cụm cho dữ liệu
Supermarket_Data.

You might also like