HOW K-MEANS ALGORITHM WORKS ? Bước 1: Chọn số cụm k để bắt đầu thuật toán
Bước 2: Chọn ngẫu nhiên 3 điểm dữ liệu riêng
biệt làm điểm centroid và gán từng điểm vào cụm gần điểm centroid nhất
Bước 3: Lấy từng mẫu theo trình tự và tính
toán khoảng cách của nó từ điểm centroid của mỗi cụm. Nếu một mẫu hiện không nằm trong cụm có centroid gần nhất, hãy chuyển mẫu này sang cụm đó và cập nhật centroid của cụm thu được mẫu mới và cụm mất mẫu.
Bước 4: Lặp lại bước 2 và 3 cho đến khi đạt
được sự hội tụ. HOW TO CHOOSE A GOOD “K” FOR K-MEANS CLUSTERING ?
•Sum of Square Error (SSE): được định
nghĩa là tổng bình phương khoảng cách giữa các điểm trong cụm so với điểm centroid
c_i = điểm gần nhất so với centroid
HOW TO CHOOSE A GOOD “K” FOR K-MEANS CLUSTERING ?
• Vẽ đường cong giữa SSE và K
• Chúng ta có thể thấy sự thay đổi rất nhỏ
Elbow trong giá trị của SSE đối với K = 3, vì vậy nên lấy giá trị điểm khuỷu tay đó làm số cụm cuối cùng INERTIA THANK YOU