You are on page 1of 3

Câu 1: Vẽ biểu đồ phân tán (scatter plot) cho tập dữ liệu Customer_transaction_record.csv.

Biểu đồ phân tán cho tập dữ liệu Customer_transaction_record.csv được thể hiện như sau:
12

10

6 VisitFrequency
AmountSpent

0
0 2 4 6 8 10 12

Từ biểu đồ phân tán, chúng ta có thể thấy rằng dữ liệu có xu hướng phân bố thành hai cụm:
Cụm 1: Bao gồm các khách hàng có tần suất truy cập cao và số tiền chi tiêu lớn.
Cụm 2: Bao gồm các khách hàng có tần suất truy cập thấp và số tiền chi tiêu nhỏ.

Câu 2: Dựa trên biểu đồ phân tán, hãy chọn số K phù hợp để phân cụm dữ liệu.
Số K là số lượng cụm mà chúng ta muốn phân tách dữ liệu. Trong trường hợp này, chúng ta có
thể thấy rằng dữ liệu có xu hướng phân bố thành hai cụm rõ ràng. Do đó, chúng ta có thể chọn
K = 2 là số lượng cụm phù hợp.

Câu 3: Chọn hai điểm dữ liệu ngẫu nhiên làm tâm ban đầu của các cụm.
Hai điểm dữ liệu ngẫu nhiên được chọn làm tâm ban đầu của các cụm là:
Centroid 1: (Visit Frequency = 10, Amount Spent = 25)
Centroid 2: (Visit Frequency = 35, Amount Spent = 18)

Câu 4: Gán mỗi điểm dữ liệu vào cụm có tâm gần nhất với nó.
Đối với mỗi điểm trong tập dữ liệu, chúng ta có thể sử dụng công thức khoảng cách Euclide để
tính khoảng cách đến từng trọng tâm. Điểm đó sẽ được gán cho cụm có trọng tâm gần nhất.
CustomerID VisitFrequency AmountSpent Cluster
1 8 31 1
2 7 32 1
3 22 6 2
4 11 32 1
5 38 29 1
6 40 29 1
7 39 25 1
8 28 13 2
9 23 6 2
10 27 8 2
11 30 14 2
12 32 17 2
13 28 11 2

Câu 5: Tính lại tâm của các cụm.


Sau khi tất cả các điểm đã được gán vào các cụm, chúng ta có thể tính lại trọng tâm của mỗi
cụm. Cái mới centroid là vị trí trung bình của tất cả các điểm trong cụm.
Trọng tâm 1: (10, 27) = (∑(x1, y1) / n1, ∑(x2, y2) / n1)
- Trong đó:
∑(x1, y1) là tổng của tọa độ x và y của tất cả các điểm trong cụm 1
n1 là số lượng điểm trong cụm 1
Trọng tâm 2: (35, 17) = (∑(x2, y2) / n2, ∑(x3, y3) / n2)
- Trong đó:
∑(x2, y2) là tổng của tọa độ x và y của tất cả các điểm trong cụm 2
n2 là số lượng điểm trong cụm 2

Câu 6: Lặp lại các bước 4 và 5 cho đến khi các cụm không còn thay đổi.
Sau khi tính lại tâm của các cụm, chúng ta thấy rằng các điểm dữ liệu không thay đổi cụm. Do
đó, chúng ta có thể dừng quá trình lặp lại.
Kết quả phân cụm:
Dựa trên các bước trên, chúng ta có kết quả phân cụm như sau:
Cluster CustomerID VisitFrequency AmountSpent
1 1, 2, 5, 6, 7 8, 7, 38, 40, 39 31, 32, 29, 29, 25
2 3, 4, 8, 9, 10, 11, 12, 13 22, 11, 28, 27, 30, 32, 28, 23 6, 32, 13, 8, 14, 17, 11, 6
Kết luận:
Dựa trên kết quả phân cụm, chúng ta có thể thấy rằng tập dữ liệu
Customer_transaction_record.csv có thể được phân thành hai cụm:
Cụm 1: Bao gồm các khách hàng trung thành, có tần suất truy cập cao và số tiền chi tiêu lớn.
Cụm 2: Bao gồm các khách hàng ít trung thành, có tần suất truy cập thấp và số tiền chi tiêu nhỏ.
Bảng phân tích kết quả phân cụm

Đặc điểm Cụm 1 Cụm 2


Tần suất truy cập Cao Thấp
Số tiền chi tiêu Lớn Nhỏ
Giá trị khách hàng Cao Thấp
Khả năng mua lại Cao Thấp
Khả năng giới thiệu Cao Thấp

You might also like