Professional Documents
Culture Documents
BTVN 5
BTVN 5
Bước 2: Xử lí dữ liệu
Ta thấy một số dữ liệu trong bảng bị thiếu, cần bổ sung. Từ File, kéo thả chọn Preprocess
=> chọn Impute Missing Values => Chọn Average/Most frequent
b. Theo kết quả của Hierachical Clustering nên chọn phân cụm như thế nào, giải thích và
chụp hình minh chứng kết quả bên dưới.
Các bước phân cụm bằng Hierarchical Clustering
Bước 1: Để tính khoảng cách
Từ Data Sampler, kéo thả chọn Distances. Trong Distance Metric, chọn Euclidean.
Bước 2: Để phân cụm dựa trên phân cấp
Từ Distances, kéo thả chọn Hierarchical, xuất hiện hộp thoại Hierachical Clustering
Trong Linkage chọn Complete; trong top N chọn 2 để phân thành 2 cụm
Bước 3: Để đánh giá chỉ số phân cụm cho phương pháp Hierarchical
Từ lệnh Hierarchical Clustering, kéo thả chọn Silhoutte Plot, xuất hiện hộp thoại Silhoutte Plot
Trong mục Distance, chọn Euclidean; trong mục Grouping, chọn Cluster
Kết quả:
Nhận xét: Kết quả cho thấy chỉ số Silhouette Plot lớn nhất có giá trị xấp xỉ 0,819 (tiến tới gần 1)
nên ta thấy việc chia dữ liệu thành 2 cụm là khá hợp lí. Tuy nhiên, nhiều biến vẫn cho chỉ số
Silhouetee Plot âm nên phương pháp phân cụm Hierarchical Clustering chưa thật sự là phương
pháp phù hợp.
c. Theo kết quả của k-Means nên choni phân cụm như thế nào, giải thích và chụp hình
minh chứng kết quả bên dưới
Các bước phân cụm bằng k-Means
Bước 1: Xác định độ dừng của các cụm dữ liệu
Từ lệnh Data Sampler, kéo thả chọn Interactive k-Means, bấm Run Simulation để tự động điều
chỉnh các cụm
Bước 2: Phân cụm dựa trên phân hoạch
Từ Data Sampler, kéo thả chọn k-Means => xuất hiện hộp thoại k-Means
Chọn From 2 to 10 => chỉ số Silhouette Scores tốt nhất ở kết quả 2 cụm (0,149)