Professional Documents
Culture Documents
5 - Gom Nhom Du Lieu-T
5 - Gom Nhom Du Lieu-T
Định nghĩa
Là quá trình gom cụm/nhóm các đối tượng/dữ liệu
có đặc điểm tương đồng vào các cụm/nhóm tương
ứng. Trong đó:
• Các đối tượng trong cùng một cụm sẽ có những
tính chất tương tự nhau.
• Các đối tượng thuộc cụm/nhóm khác nhau sẽ có
các tính chất khác nhau.
Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa
được gán nhãn. Đây là dữ liệu tự nhiên thường thấy
trong thực tế.
GIỚI THIỆU PHÂN CỤM DỮ LIỆU
Độ đo phân cụm: được sử dụng làm tiêu chí nhằm tính toán sự
tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ
cho quá trình gom cụm
Một số độ đo phân cụm:
√
Euclid 𝑛
𝑑 ( 𝑢,𝑣 )= ∑ ( 𝑖 𝑖)
𝑢 − 𝑣 2
𝑖=0
(√ √ )
𝑛 𝑛 𝑛
Cosin
cos (𝑢, 𝑣)=∑ 𝑢𝑖 𝑣 𝑖 / ∑ 𝑖
𝑢 2
∑ 𝑖
𝑣 2
Minkowski:
(∑ | )
𝑛 1
𝑝 𝑝
𝑑 ( 𝑢 , 𝑣 )= 𝑢𝑖 − 𝑣 𝑖|
𝑖 =0
CÁC ỨNG DỤNG PHÂN CỤM TRONG
KINH TẾ
Dự báo khách hàng tiềm năng
Phân tích xu hướng hành vi khách hàng
Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà
cung cấp
Phân tích đặc tính sản phẩm dịch vụ
Đánh giá kết quả hoạt động kinh doanh
Phân tích hành vi người dùng mạng xã hội
GIỚI THIỆU PHÂN CỤM DỮ LIỆU
Độ pH
Cụm 1: {A}
Cụm 2: {B,C,D}
Chỉ số khối
Độ pH
Cụm 1 :{A, B}
Cụm 2 :{C, D}
Chỉ số khối
Độ pH
Cụm 1 :{A, B}
Cụm 2 :{C, D}
Chỉ số khối
Bước 3: Cập nhật lại trung tâm của 2 cụm.
C1 = (1.5;1) ; C2 =(4.5;3.5)
Kết quả phân cụm không đổi => kết thúc
ĐÁNH GIÁ THUẬT TOÁN K-MEANS
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Là biến thể của K-mean nên có cùng tư tưởng với K-means:
FCM được đề xuất bởi Bezdek năm 1974.
FCM là phân cụm dữ liệu mờ tức là một đối tượng dữ liệu có thể được phân vào 1 hoặc
nhiều nhóm.
Có xét đến yếu tố quan hệ giữa các phần tử và các cụm trong ma trận trọng số biểu
diến bậc của các đối tượng trong cụm.
Mỗi phần tử có một độ đo mức độ thành viên (xác suất là thành viên) đối với từng
cụm.
FCM phân N phần tử dữ liệu thành C cụm mờ . Mỗi cụm ci có 1 tâm cụm zi tương ứng.
Cụm mờ của các đối tượng này được biểu diễn bởi một ma trận mờ (kích thước N x C).
THUẬT TOÁN FUZZY C - MEANS
Bước 1: Khởi tạo ma trận độ đo thành viên
Bước 3: Tính độ sai khác giữa mỗi điểm dữ liệu với tâm cụm bằng khoảng cách Euclid
Với d là số thuộc tính của mỗi đối tượng dữ liệu (số chiều)
Bước 4: Cập nhật ma trận độ đo thành viên
Bước 5: Nếu các trung tâm cụm không đổi thì dừng, ngược lại thì quay lại bước 2.
VÍ DỤ FCM
𝝁𝟏 ( 𝒊 ) 𝝁𝟐 ( 𝒊 )
VÍ DỤ FCM
Bước 3: Tính độ sai khác giữa mỗi điểm dữ liệu với tâm cụm
Với
VÍ DỤ FCM
Bước 3: Tính độ sai khác giữa mỗi điểm dữ liệu với tâm cụm
Với
VÍ DỤ FCM
Sau bước 3 ta được:
VÍ DỤ FCM
Bước 4: Cập nhật giá trị ma
trận độ đo thành viên
Cụm 1
VÍ DỤ FCM
Bước 5: Quay lại bước 2 cho tới khi các tâm cụm không thay đổi
ĐÁNH GIÁ THUẬT TOÁN FCM
Là thuật toán gom cụm mềm, khắc phục được vấn đề các cụm chồng
lên nhau trong dữ liệu có kích thước lớn, nhiều chiều.
Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức
độ thành viên.
Vẫn có thể gặp vấn đề cực trị địa phương.
Nhạy cảm với nhiễu và ngoại biên.
CÁC PHƯƠNG PHÁP ĐÁNH GIÁ
PHÂN CỤM DỮ LIỆU
Là vấn đề khó khăn nhất trong bài toán phân cụm
Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá ngoài,
đánh giá nội bộ, đánh giá tương đối.
Một số tiêu chí để đánh giá chất lượng phân cụm là:
Độ nén (compactness): các phần tử của cụm phải “gần nhau”
Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”,
phân cách rõ ràng.
ĐÁNH GIÁ NGOÀI (EXTERNAL VALIDATION)
Là đánh giá kết quả phân cụm dựa vào cấu trúc/ xu hướng phân
cụm được chỉ định trước cho tập dữ liệu.
So sánh độ sai khác giữa các cụm
Bài toán phân cụm khách hàng, dựa trên hành vi mua hàng
DEMO BẰNG CÔNG CỤ ORANGE
Kết quả
TÀI LIỆU THAM KHẢO
[1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery
Handbook”, Second Edition, Springer Science + Business Media, LLC 2005,
2010
[2] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar,
“Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
[3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”,
Second Edition, Morgan Kaufmann Publishers, 2006
[4] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons,
Inc, 2006.
[5]R. Xu, D. Wunsch II. Survey of Clustering Algorithms. IEEE Transactions on
Neural Networks, 16(3), May 2005, pp. 645-678