You are on page 1of 7

Machine Translated by Google

Tạp chí Đại học King Saud - Khoa học Máy tính và Thông tin 33 (2021) 1251–1257

Danh sách nội dung có sẵn tại ScienceDirect

Tạp chí của Đại học King Saud -


Khoa học máy tính và thông tin
trang chủ tạp chí: www.sciasedirect.com

Xếp hạng RFM - Một cách tiếp cận hiệu quả để phân khúc khách hàng
a, b b
, A. Umamakeswari , L. Priyatharsini , A. Neyaa
một

A. Joy Christy
aPhòng CSE, Trường Máy tính, SASTRA Được coi là Đại học, Thanjavur, Ấn Độ
b
Trường Máy tính, SASTRA Được coi là Đại học, Thanjavur, Ấn Độ

thông tin bài viết trừu tượng

Lịch sử bài viết: Việc phân khúc khách hàng hiệu quả của doanh nghiệp được phân thành các nhóm có hành vi giống nhau
Nhận ngày 1 tháng 6 năm 2018
dựa trên các giá trị RFM (Lần truy cập gần đây, Tần suất và Tiền tệ) của khách hàng. Dữ liệu giao dịch
Đã sửa đổi ngày 26 tháng 8 năm 2018
của một công ty qua được phân tích trong một khoảng thời gian cụ thể. Phân đoạn giúp hiểu rõ về
Được chấp nhận ngày 4 tháng 9 năm 2018
nhu cầu của khách hàng và giúp xác định khách hàng tiềm năng của công ty. Việc chia cus tomers thành các
Có sẵn trực tuyến ngày 5 tháng 9 năm 2018
phân khúc cũng làm tăng doanh thu của công ty. Người ta tin rằng việc giữ lại những người làm công việc
chuyên nghiệp quan trọng hơn việc tìm kiếm khách hàng mới. Ví dụ, công ty có thể triển khai
Từ khóa:
chiến lược tiếp thị cụ thể cho một phân khúc riêng lẻ để giữ chân khách hàng. Nghiên cứu này lần đầu tiên
Phân khúc khách hàng
thực hiện một phân tích RFM trên dữ liệu giao dịch và sau đó mở rộng để phân cụm giống nhau bằng cách sử
Phân tích RFM
K-Means dụng các thuật toán K-mean và Fuzzy C-Means. Trong bài báo này, một ý tưởng mới cho việc chọn
Phương tiện C mờ centroid trong K- Means được đề xuất. Các kết quả thu được từ các phương pháp luận được so sánh với
Centroid ban đầu nhau bởi số lần lặp lại, tính gọn nhẹ của cụm và thời gian thực hiện.
2018 Các tác giả. Sản xuất và lưu trữ bởi Elsevier BV thay mặt cho Đại học King Saud. Đây là
mở bài viết truy cập theo giấy phép CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).

1. Giới thiệu Ở đây, phân đoạn được thực hiện bằng cách sử dụng dữ liệu hành vi vì nó
thường có sẵn và liên tục phát triển theo thời gian và lịch sử truy đuổi.
Trong những năm gần đây, mức độ cạnh tranh giữa các công ty trong việc Phân tích RFM (Lần truy cập gần đây, Tần suất và Tiền tệ) là
duy trì hoạt động trong lĩnh vực này đã gia tăng đáng kể. Lợi nhuận của com một kỹ thuật nổi tiếng được sử dụng để đánh giá khách hàng dựa trên
pany có thể được cải thiện bằng mô hình phân khúc khách hàng. hành vi mua của họ. Một phương pháp cho điểm được phát triển để đánh giá
Việc giữ chân khách hàng quan trọng hơn việc thu được điểm của Lần truy cập gần đây, Tần suất và Tiền tệ. Cuối cùng, điểm số của
những khách hàng mới. Theo nguyên tắc Pareto (Srivastava, cả ba biến được hợp nhất dưới dạng điểm RFM khác nhau
2016), 20% khách hàng đóng góp nhiều hơn vào doanh thu của 555 đến 111 (Haiying và Yu, 2010) được sử dụng để dự đoán
công ty hơn phần còn lại. Mỗi phân khúc khách hàng có thể được hình thành mô hình tương lai bằng cách phân tích lịch sử hiện tại và quá khứ của
bằng cách sử dụng nhiều đặc điểm khác nhau của khách hàng để giúp khách hàng. Trong bối cảnh này, người ta đã quan sát thấy điểm số của

những người kinh doanh để tùy chỉnh các kế hoạch tiếp thị, xác định xu hướng, ba yếu tố Lần truy cập gần đây, Tần suất và Tiền tệ tỷ lệ thuận trực tiếp với
lập kế hoạch phát triển sản phẩm, các chiến dịch quảng cáo và cung cấp các thời gian tồn tại và tỷ lệ giữ chân của khách hàng.

sản phẩm phát triển tương ứng. Phân khúc khách hàng cá nhân hóa các thông điệp Khi các giá trị của lần truy cập gần đây, tần suất và tiền tệ được xác
của các cá nhân để giao tiếp tốt hơn với các nhóm dự định. định, thuật toán K-Means được áp dụng cho các biến cho các cụm
Các thuộc tính phổ biến nhất được sử dụng trong phân khúc khách hàng là của cơ sở khách hàng. Hành vi của mỗi cụm được phân tích để
vị trí, tuổi, giới tính, thu nhập, lối sống và lần mua hàng trước tìm nhóm khách hàng đem lại nhiều lợi nhuận hơn cho công ty.
hành vi. Tương tự, phân cụm được thực hiện bằng cách sử dụng hai thuật toán khác
cụ thể là Mờ C - Có nghĩa là phân cụm và phương pháp được đề xuất với
các trọng tâm ban đầu được chọn trong thuật toán K– Means hiện có. Các
động lực của bài báo là đề xuất một phương pháp để lựa chọn
Tác giả tương ứng. centroid cho thuật toán K-mean và áp đặt phương pháp để thu hút khách hàng
Địa chỉ e-mail: joychristy@cse.sastra.edu (AJ Christy). với thời gian và thời gian lặp lại giảm. Bây giờ, nhóm khách hàng đã được

Đánh giá ngang hàng thuộc trách nhiệm của Đại học King Saud. tìm thấy, cần phải hiểu
sự khác biệt giữa các nhóm khách hàng này. Một phân tích kỹ lưỡng được thực
hiện trên các cụm để hỗ trợ trong việc tìm kiếm các cus tomers được nhắm mục
tiêu và cung cấp cho chúng các khuyến mãi và ưu đãi thích hợp.
Sản xuất và lưu trữ bởi Elsevier Ngoài ra, một thuật toán K-Means dựa trên Trung vị lặp lại mới lạ là

https://doi.org/10.1016/j.jksuci.2018.09.004
1319-1578 / 2018 Các tác giả. Sản xuất và lưu trữ bởi Elsevier BV thay mặt cho Đại học King Saud.
Đây là một bài viết truy cập mở theo giấy phép CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).
Machine Translated by Google

1252 AJ Christy và cộng sự. / Tạp chí Đại học King Saud - Khoa học Máy tính và Thông tin 33 (2021) 1251–1257

được đề xuất với một số nguyên để giảm số lần lặp lại so với các thuật toán bằng cách kết hợp dữ liệu giao dịch của một số khách hàng. Các tác giả cũng chỉ
phân cụm truyền thống. Kết quả của công việc chuyên nghiệp là một phân khúc ra rằng thật khó để tìm ra một giải pháp phân đoạn tối ưu. Vì vậy, Tuzhilin đã

khách hàng có ý nghĩa sẽ hữu ích cho những người làm tiếp thị. Phần còn lại của đưa ra các phương pháp tạo cụm tối ưu khác nhau. Sau đó, các tác giả đã kiểm
nghiên cứu tập trung vào việc tách biệt tất cả ba cách tiếp cận phân cụm liên tra bằng thực nghiệm các phân đoạn cus tomer thu được bằng cách nhóm trực tiếp

quan đến sự lặp lại, độ gọn của cụm, thời gian thực hiện và nhiều yếu tố khác. và nó được quan sát là tốt hơn so với phương pháp thống kê.

3. Mô tả thuật toán
2. Tổng quan tài liệu

Tập dữ liệu giao dịch của khách hàng của một công ty được sử dụng để thực
Jiang và Tuzhilin (2009) xác định rằng cả việc hướng dẫn khách hàng và
hiện quá trình phân đoạn. Trong nghiên cứu này, ba thuật toán ent khác nhau đã
nhắm mục tiêu người mua đều cần thiết để cải thiện hoạt động quan tâm của thị
được sử dụng để phân cụm khách hàng dựa trên phân tích RFM. Dữ liệu ban đầu
trường. Hai nhiệm vụ này được tích hợp vào một cách tiếp cận từng bước, nhưng
được xử lý trước để loại bỏ các ngoại lệ và lọc các trường hợp có ý nghĩa.
vấn đề phải đối mặt là tối ưu hóa thống nhất. Để giải quyết vấn đề, tác giả đề
Các giá trị ngoại lệ được phát hiện bằng cách sử dụng z-core để xác định mối
xuất thuật toán tation K-Classifiers Segmen. Cách tiếp cận này tập trung vào
quan hệ của dữ liệu với giá trị trung bình và độ lệch chuẩn của nó. Mối quan hệ
việc phân phối nhiều tài nguyên hơn cho những khách hàng mang lại nhiều lợi
giữa giá trị trung bình và độ lệch chuẩn được ánh xạ tới 0 và 1 một cách khách
nhuận hơn cho com pany. Một số lượng lớn các tác giả đã viết về các phương
quan. Dữ liệu quá xa giá trị trung bình (không) được coi là giá trị ngoại lai.
pháp khác nhau để phân khúc khách hàng.
Thông tin được xử lý trước sau đó được đưa vào mô hình RFM để tính toán các
giá trị lần truy cập gần đây, tần suất và tiền tệ. Ba thuộc tính sau đó được
Ông và Li (2016) đã đề xuất một cách tiếp cận ba chiều để cải thiện thời
chuyển cho ba thuật toán phân cụm là K-Means, Fuzzy C-Means và Thuật toán phân
gian tồn tại của khách hàng (CLV), sự hài lòng của khách hàng và hành vi của
cụm K-Means dựa trên trung vị lặp lại (RM K Means). Các thuật toán này tập hợp
khách hàng. Các tác giả đã kết luận rằng người tiêu dùng khác nhau và nhu cầu
các phần tử cus thành các phân đoạn. Khả năng làm việc của các thuật toán phân
của họ cũng vậy.
cụm sau đó được phân tích về số lần lặp lại, tính hiệp ước của cụm và thời
Phân khúc hỗ trợ tìm kiếm nhu cầu và mong đợi của họ và chứng minh một dịch vụ
gian thực hiện. Hình 1 cung cấp một cái nhìn ngắn gọn về hệ thống phân khúc
tốt.
khách hàng được đề xuất.
Cho và Moon (2013) đã đề xuất một hệ thống khuyến nghị tùy chỉnh bằng cách
sử dụng khai thác mô hình thường xuyên có trọng số. Hồ sơ khách hàng được

thực hiện để tìm khách hàng tiềm năng bằng cách sử dụng mô hình RFM. Tác giả đã
xác định các trọng số khác nhau cho mỗi giao dịch để tạo ra các quy tắc kết hợp

có trọng số thông qua khai thác. Sử dụng mô hình RFM sẽ cung cấp khuyến nghị 3.1. Phân tích RFM

chính xác hơn cho khách hàng, do đó làm tăng lợi nhuận của công ty.
Phân tích lần truy cập gần đây, tần suất và tiền tệ (RFM) là một kỹ thuật

Zahrotun (2017) đã sử dụng dữ liệu khách hàng trực tuyến để xác định khách mạnh mẽ và được công nhận trong tiếp thị cơ sở dữ liệu. Nó được sử dụng rộng

hàng tốt nhất bằng Quản lý quan hệ khách hàng (CRM). Bằng cách áp dụng khái niệm rãi để xếp hạng khách hàng dựa trên lịch sử mua hàng trước đó của họ. Phân tích

CRM cho mua sắm trực tuyến, tác giả xác định khách hàng tiềm năng bằng cách phân RFM cho thấy việc sử dụng trong một loạt các ứng dụng liên quan đến một số

khúc họ, điều này giúp chúng tôi tăng lợi nhuận cho công ty. Vì vậy, để phân lượng lớn khách hàng như mua hàng trực tuyến, bán lẻ, v.v. Phương pháp này

khúc khách hàng theo từng hình thức và tiếp thị khách hàng một cách chính xác, phân nhóm khách hàng dựa trên ba thứ nguyên, lần truy cập gần đây (R), tần suất

Phương pháp phân cụm C-Means Mờ được sử dụng. Do đó, điều này giúp khách hàng (F) và tiền tệ (M).

có được những tiện ích đặc biệt ở nhiều hơn một hạng mục trong chiến lược

đánh dấu phù hợp theo nhu cầu của họ.


3.1.1. Lần truy cập gần đây - Lần cuối cùng khách hàng mua hàng là khi

nào?
Giá trị lần truy cập gần đây là số ngày khách hàng thực hiện giữa hai lần
Shah và Singh (2012) đã đề xuất một thuật toán phân cụm mới thực thi tương
mua hàng. Giá trị nhỏ hơn của lần truy cập gần đây ngụ ý rằng khách hàng tiềm
tự như thuật toán K-mean và thuật toán K-medoids. Cả hai phương pháp đều là
năng ghé thăm công ty nhiều lần trong một khoảng thời gian ngắn. Tương tự, giá
phương pháp tiếp cận từng phần. Thuật toán đặt ra chuyên nghiệp không cung cấp
trị lớn hơn ngụ ý rằng khách hàng ít có khả năng ghé thăm công ty trong thời
giải pháp tối ưu trong mọi trường hợp, nhưng nó làm giảm tiêu chí lỗi cụm.
gian ngắn.
Saurabh nhận thấy rằng khi số lượng cụm tăng lên, phương thức mới sẽ mất ít
thời gian hơn để thực thi so với các phương pháp truyền thống.
3.1.2. Tần suất - Khách hàng đã mua hàng bao nhiêu lần?
Tần suất được định nghĩa là số lần mua hàng của một khách hàng trong một
Sheshasaayee và Logeshwari (2017) đã thiết kế một cách tiếp cận tổng hợp
khoảng thời gian cụ thể. Giá trị tần suất càng cao thì càng có nhiều khách hàng
mới bằng cách phân đoạn với các phương pháp RFM và LTV (Giá trị thời gian
trung thành của công ty.
sống). Họ đã sử dụng phương pháp tiếp cận hai giai đoạn với giai đoạn đầu là

phương pháp thống kê và giai đoạn thứ hai là phân nhóm theo từng dạng. Họ
hướng tới việc thực hiện phân cụm K-mean sau mô hình hai pha và sau đó sử dụng 3.1.3. Tiền tệ - Khách hàng đã chi bao nhiêu tiền?

mạng nơ-ron để tăng cường phân đoạn của họ. Tiền tệ được định nghĩa là số tiền mà công ty đã chi tiêu trong một khoảng
thời gian nhất định. Số tiền chi tiêu càng cao thì doanh thu của họ càng tăng

Lu và cộng sự. (2014) đã phân tích dự đoán về thời gian nghỉ của khách hàng. cho công ty.
Các tác giả đã sử dụng hồi quy logistic và cô lập dữ liệu giao dịch để tạo ra Mỗi khách hàng được chỉ định với ba điểm số khác nhau cho các biến số lần

một mô hình dự đoán khác biệt mới. Với việc triển khai tài khoản thử nghiệm của truy cập gần đây, tần suất và tiền tệ. Việc chấm điểm được thực hiện theo thang
mình, người ta quan sát thấy rằng có thể xác định được những khách hàng có giá điểm từ 5 đến 1. Nhóm ngũ phân vị cao nhất được cho điểm 5, và các nhóm khác

trị khuấy động tối đa và có thể được giữ lại bằng cách sử dụng các chiến lược được cho điểm 4, 3, 2 và 1. Điểm số có thể được giả định là có các đặc điểm
tiếp thị riêng lẻ. Zhang tin tưởng vào việc suy ra nguyên nhân cho hành vi riêng biệt như được đưa ra trong Bảng 1.

churn của khách hàng và đáp ứng các nhu cầu cá nhân là cần thiết cho sự tồn tại Cuối cùng, tất cả các khách hàng được cung cấp điểm số 555,554 ...
lâu dài của công ty. 111. Những khách hàng có điểm số 555 có thể được gọi là những khách hàng tiềm

Jiang và Tuzhilin (2009) trình bày một phương pháp phân nhóm trực tiếp nhằm năng của công ty vì họ có khả năng mang lại nhiều lợi nhuận hơn cho công ty và
phân nhóm các khách hàng không dựa trên số liệu thống kê được tính toán, nhưng ngược lại với những khách hàng
Machine Translated by Google

AJ Christy và cộng sự. / Tạp chí Đại học King Saud - Khoa học Máy tính và Thông tin 33 (2021) 1251–1257 1253

Hình 1. Khung phân tích K-Means của RM.

Bảng 1 (n + k + i). Trong đó 'n' đề cập đến số lượng cá thể, k đề cập đến số lượng
Mô tả Điểm RFM. cụm và i đề cập đến số lần lặp lại.

Ghi bàn Đặc điểm

Tiềm năng Thuật toán 1 (K-Means).


5 Hứa hẹn
4 3 Không thể để mất chúng
Đầu vào:
2 Gặp rủi ro

1 Mất đi
) Tập dữ liệu khách hàng có chứa 'n' phiên bản) k: số
lượng cụm

Đầu ra:)
Dữ liệu khách hàng Được chia thành k cụm Thuật
có điểm 111. Tùy thuộc vào điểm RFM này, mỗi khách hàng có thể được đưa vào
toán: 1. Ban đầu, tùy thuộc vào giá trị của k, k điểm
một phân khúc khác nhau.
ngẫu nhiên được chọn làm trọng tâm ban đầu.

3.2. K-Means clustering 2. Khoảng cách của mỗi điểm dữ liệu từ các trọng tâm đã chọn trước đó
được đánh giá bằng cách sử dụng khoảng cách Euclidian.

K-Means là một thuật toán tiêu chuẩn lấy các tham số và số lượng cụm làm 3. Các giá trị khoảng cách được so sánh và điểm dữ liệu được gán cho

đầu vào và phân vùng dữ liệu thành số lượng cụm xác định sao cho tỷ lệ tương trọng tâm có giá trị sai lệch Euclidian ngắn nhất.

tự trong cụm là cao. K-Means là một phương pháp lặp đi lặp lại, tính toán giá

trị của các centroid trước mỗi lần lặp. Các điểm dữ liệu được di chuyển giữa 4. Các bước trước đó được lặp lại. Quá trình bị dừng nếu các cụm thu

các cụm khác nhau tùy thuộc vào trọng tâm được tính toán ở mỗi lần lặp. Quá được giống với các cụm của bước trước đó.

trình này được lặp lại cho đến khi tổng không thể giảm được nữa. Thuật toán K-
Means được trình bày trong Thuật toán 1.

3.3. Phương tiện C mờ


Giá trị của các biến số lần truy cập gần đây, tần suất và tiền tệ được

chuẩn hóa bằng cách sử dụng chuẩn hóa tối thiểu. Điều này được thực hiện vì các Fuzzy C-Means là một cách tiếp cận phân cụm (Memon và Lee, 2017) cho phép
giá trị bị lệch có thể có vấn đề. Bây giờ, thuật toán phân cụm được áp dụng cho một dữ liệu cụ thể có mặt trong nhiều hơn một cụm từ. Nó không quyết định lịch

dữ liệu được chia tỷ lệ. Số lượng cụm được giới hạn ở 10. Số tiền kiếm được sử thành viên của một điểm dữ liệu đối với một cụm nhất định. Thay vào đó, khả
của mỗi phân khúc khách hàng được tính toán để tìm ra phân khúc khách hàng mang năng một điểm dữ liệu cụ thể sẽ thuộc về cụm đó được tính toán. Ưu điểm mà

lại nhiều doanh thu hơn cho công ty. Độ phức tạp của K-means là O Fuzzy C Means có so với K-Means là kết quả thu được đối với
Machine Translated by Google

1254 AJ Christy và cộng sự. / Tạp chí Đại học King Saud - Khoa học Máy tính và Thông tin 33 (2021) 1251–1257

và tập dữ liệu tương tự tốt hơn thuật toán K-mean vì trong K có nghĩa là Bài báo này đề xuất một cách mới để chọn centroid ban đầu
một điểm dữ liệu hoàn toàn phải hiện diện trong một cụm duy nhất. Trong cho thuật toán K- Means. Ba biến Số lần truy cập gần đây (R), Tần suất miễn
nghiên cứu này, một khách hàng có thể thuộc về nhiều hơn một nhóm phí (F) và Tiền tệ (M) sẽ được nhóm lại được sắp xếp
tăng cơ hội giữ chân khách hàng bằng cách đối xử với họ và được lưu trữ theo thứ tự tăng dần trong ba vectơ là R ', F' và M '.
với các ưu đãi khác nhau cho từng phân khúc. Sự phức tạp về thời gian của Giá trị trung bình của mỗi vectơ được tìm thấy và được gán là giá trị ban đầu
C-Means mờ là O (n + k + d2 + i), trong đó d là số centroid cho thuật toán K-Means. Lặp đi lặp lại các giá trị trung bình
các lần lặp lại. được tính từ các giá trị R ', F' và M 'k số lần

Tương tự như thuật toán trước, các biến được chia tỷ lệ bằng cách sử dụng phụ thuộc vào giá trị của k (số đoạn). Chọn tên viết tắt
chuẩn hóa tối thiểu-tối đa. Giờ đây, khách hàng được tập hợp lại dựa trên centroid với phân phối trung bình của nó làm giảm số lần lặp lại và thời gian

trên Fuzzy C-Means clustering (Zahrotun, 2017) dựa trên tính toán của thuật toán K –Means truyền thống.
lần truy cập gần đây, tần suất và giá trị tiền tệ. Nó được quan sát thấy các cụm thu được thông qua sửa đổi
cách tiếp cận có ý nghĩa và phù hợp hơn so với phương pháp phân số bằng
Thuật toán 2 (C-Means mờ). cách chọn ngẫu nhiên các centroid. Sự phức tạp
của RM K-Means cũng giống như K-Means, là O (n + k + i). Từ
các trọng tâm ngẫu nhiên ban đầu được tính bằng cách sử dụng giá trị trung bình dựa trên

Đầu vào => Tập dữ liệu khách hàng chứa 'n' phiên bản phương pháp, thuật toán RM K-mean được đề xuất làm giảm số lượng
=> k: số lượng cụm của các lần lặp với K-mean.

Đầu ra:
=> Dữ liệu khách hàng được phân vùng thành k cụm Thuật toán 2 (RM K-Means).
Thuật toán:
1. Chọn ngẫu nhiên k tâm ban đầu.
Đầu vào:
2. Tính ma trận thành viên mờ mij.
2 1
chống lại

=> Tập dữ liệu khách hàng chứa n phiên bản


lij ¼ 1 = Pkc¼1 dic m
=> K: số lượng cụm
3. Tính toán các trung mtâm cụm vj.
m Đầu ra:
ex ¼ Pn i¼1 xi = Pn i¼1ðlijÞ Dữ liệu khách hàng được phân vùng thành k cụm
lij 4. Lặp lại các bước 2 và 3 cho đến khi đạt được giá trị thấp nhất của j, Các bước thuật toán:
trong đó j là hàm mục tiêu. 1. Tải lên tập dữ liệu giao dịch của Khách hàng
2. Xử lý trước tập dữ liệu bằng cách loại bỏ các giá trị ngoại lệ và rỗng
các trường hợp có giá trị

3. Tính điểm R, F và M cho mỗi trường hợp


3.4. K-Means trung bình lặp lại 4. Thứ tự điểm RFM theo thứ tự là R ', F' và M 'và lưu trữ nó
trong một vectơ

Mặc dù thuật toán K- Means thường được sử dụng để phân nhóm, 5. Cho S = tổng số cá thể / k
nó có một số nhược điểm. K-Means chọn các trung tâm ban đầu trong một 6. Tách vectơ R'F'M 'với k đoạn trong đó mỗi seg
thời trang ngẫu nhiên. Sau đó, khoảng cách của mỗi điểm dữ liệu từ cen troid ment bao gồm S cá thể

được tính bằng khoảng cách Euclidian và mỗi điểm được phân bổ 7. For i = 1 to k do

đến tâm gần nhất tạo thành một cụm. Vấn đề với 6.1 Tính trung vị cho mỗi đoạn i
việc chọn các centroid ban đầu một cách ngẫu nhiên là centroid có thể nằm gần 6.2. Lưu trữ trung vị trong vectơ m [i].
nhau hơn khiến các cụm ít có ý nghĩa hơn. 8. Gọi các giá trị của m vectơ là trọng tâm ban đầu của K

Các trung tâm ban đầu xác định mức độ tốt của cụm như giảm số lần lặp lại, có nghĩa

các giải pháp tối ưu toàn cục và cụm 9. Tính khoảng cách RFM của mỗi đối tượng với
độ nhỏ gọn. Hiệu suất của K-Means bị suy giảm do ngẫu nhiên trung tâm

centroid ban đầu (Liu và cộng sự, 2014). 10. Nhóm đối tượng dựa trên khoảng cách tối thiểu
11. Tính toán lại các trung tâm cụm
12. Lặp lại các bước từ 8 đến 10 cho đến khi không có thay đổi nào về
ban 2
thành viên clus ter hoặc centroid
Mô tả tập dữ liệu bán lẻ trực tuyến.

Không. Thuộc tính Sự mô tả Dữ liệu

Tên loại hình

1 4. Thí nghiệm và thảo luận kết quả


InvoiceSố số duy nhất có 6 chữ số cho mỗi Trên danh nghĩa

Giao dịch
2 Mã chứng khoán Số duy nhất gồm 5 chữ số cho mỗi sản phẩm Danh nghĩa Hiệu suất của phương pháp đề xuất được đánh giá bởi
3 Sự mô tả tên sản phẩm Trên danh nghĩa
làm việc trên tập dữ liệu giao dịch của khách hàng trực tuyến
4 Số lượng Số lượng sản phẩm trên mỗi giao dịch Số
cửa hàng bán lẻ trong một năm được lấy từ kho lưu trữ của Đại học Califor
5 Ngày hóa đơn Ngày và giờ lập hóa đơn Số
6 UnitPrice Số nia Irwin (UCI). Quy trình từng bước của khách hàng
Giá sản phẩm trên mỗi chiếc
7 ID khách hàng Số duy nhất gồm 5 chữ số cho mỗi khách hàng Danh nghĩa phân đoạn được trình bày trong phần này. Tập dữ liệu bao gồm
8 Quốc gia Tên quốc gia Trên danh nghĩa
tám thuộc tính bao gồm ID khách hàng, mã sản phẩm, sản phẩm

bàn số 3
Máy tính RFM.

Tham số Điểm RFM

5 4 32 1

Lần truy cập gần đây (ngày) 7 30 90 180 365

Tần suất (số lần mua hàng) 15 3 trở xuống

Tiền tệ (tính bằng đô la) Trên 12.000 12 9000 - 12,0000 9 6000–9000 6 3000–6,0000 Dưới 3000
Machine Translated by Google

AJ Christy và cộng sự. / Tạp chí Đại học King Saud - Khoa học Máy tính và Thông tin 33 (2021) 1251–1257 1255

Hình 2a. K-Means Clustering.

Hình 2b. Mờ C- Nghĩa là Phân cụm.

Hình 2c. RM K- Nghĩa là Phân cụm.


Machine Translated by Google

1256 AJ Christy và cộng sự. / Tạp chí Đại học King Saud - Khoa học Máy tính và Thông tin 33 (2021) 1251–1257

Bảng 4

Phân tích so sánh RM K-Means.


K-Means Phương tiện C mờ RM K-Means

Lặp lại 193 2

Thời gian thực hiện (tính bằng giây) 4 2,0035 24,7988 1,4917

Chiều rộng hình bóng trung bình 0,33 0,43 0,49

Hình 3. Phân tích kết quả của RM K-Means.

tên, giá của sản phẩm, ngày và giờ mua, v.v. chiều rộng hình bóng trung bình của RM K-Means lớn hơn của

tập dữ liệu gốc bao gồm 18.267 cá thể với tám thuộc tính. Phân cụm C-Means mờ và phân cụm K-Means. Kết quả

Tập dữ liệu chứa thông tin mua hàng của khách hàng cho trong Bảng 4 được vẽ trong Hình 3.

từ ngày 1-12-2010 đến ngày 09-12-2011. Các trường hợp bị thiếu giá trị

trong các thuộc tính quan trọng, đơn giá và số lượng nhỏ hơn 0 và
5. Kết luận
ngày vượt quá ngày hiện tại tất cả đều bị xóa trong dữ liệu

sơ chế. Để xác định những điểm khác biệt, phân tích Z-Score cũng
Phân khúc khách hàng sẽ làm sâu sắc thêm mối quan hệ với
được thực hiện như một bước bổ sung trong quá trình xử lý trước dữ liệu. Các
khách hàng. Tìm kiếm khách hàng mới cho doanh nghiệp là rất quan trọng,
trường hợp cố ý trung bình như dữ liệu hóa đơn và thời gian, số lượng ống dẫn
trong khi đó việc giữ chân các khách hàng hiện tại (Tong et al., 2017) thậm chí còn
trên mỗi giao dịch, giá sản phẩm trên mỗi đơn vị liên quan đến lần truy cập gần đây,
quan trọng hơn. Trong bài báo này, phân đoạn được thực hiện bằng cách sử dụng RFM
tiền tệ và tần suất được lọc và chỉ những bản ghi đó mới có
phân tích và sau đó được mở rộng sang các thuật toán khác như K –Means
được nhập vào các thuật toán điểm chuẩn. Tập dữ liệu đã sửa đổi chứa 772 trường
phân cụm, Mờ C - Phương tiện và một thuật toán mới RM K-Means
hợp với ba thuộc tính bổ sung gần đây,
bằng cách thực hiện một sửa đổi nhỏ trong cụm K - Means hiện có. Hoạt động của
tần số và tiền tệ thu được từ tính toán RFM. Các
các phương pháp này được phân tích. Thời gian thực hiện
Mô tả của tập dữ liệu gốc được thể hiện trong Bảng 2.
bởi mỗi thuật toán để thực thi được phân tích và quan sát thấy rằng

phương pháp tiếp cận K –Means được đề xuất tiêu tốn ít thời gian hơn và cũng
4.1. Máy tính RFM
giảm số lần lặp lại. Thuật toán được đề xuất là hơn

hiệu quả bởi vì các trọng tâm có ý nghĩa hơn và được định lượng ngay từ đầu dựa
Bảng 3 biểu thị phép tính chính xác để tính RFM trên các phương tiện phân tích dữ liệu hiệu quả. Vì phân đoạn được thực hiện
điểm cho mỗi trường hợp, trong đó điểm 5 trong mỗi thông số là dựa trên các giá trị của
cao nhất. giá trị gần đây, tần suất và giá trị tiền tệ, công ty có thể tối ưu hóa các chiến
Các đồ thị đầu ra thu được từ K- Means, Fuzzy C-Means và lược tiếp thị của họ cho khách hàng dựa trên
RM K- Phương tiện được thể hiện trong Hình 2. hành vi mua sắm. Công việc trong tương lai bao gồm nghiên cứu hiệu suất
Thời gian thực hiện cho mỗi thuật toán được tính từ của khách hàng trong từng phân khúc, chẳng hạn như các sản phẩm
thời gian hệ thống. Người ta quan sát thấy rằng RM K- Có nghĩa là đề xuất sử được các thành viên của mỗi phân khúc mua thường xuyên. Cái này sẽ
dụng thời gian ít hơn so với hai kỹ thuật còn lại vì giúp tốt hơn trong việc cung cấp khuyến mại tốt hơn cho các
số lần lặp ít hơn. Số lần lặp lại giảm xuống
Mỹ phẩm.
trong RM K-Means vì centroid ban đầu được tính toán

dựa trên giá trị trung bình. Chiều rộng hình bóng được sử dụng để nghiên cứu Người giới thiệu
khoảng cách trung bình giữa các cụm kết quả. Âm mưu bóng

phân tích trực quan kết quả phân cụm và hiển thị số He X., Li, C., 2016. Việc nghiên cứu và ứng dụng phân khúc khách hàng trên
khách hàng trong từng cụm và cũng như khoảng cách tối thiểu từ các trang web thương mại điện tử. Trong: Hội nghị quốc tế lần thứ 6 năm 2016 về nhà kỹ thuật số
(ICDH), Quảng Châu, trang 203–208. doi: 10.1109 / ICDH.2016.050.
điểm trong cụm với điểm của cụm khác. Giá trị cao hơn của
Haiying, M., Yu, G., 2010. Nghiên cứu phân khúc khách hàng dựa trên sinh viên đại học
chiều rộng hình bóng trung bình cho biết rằng các điểm dữ liệu trong trên RFM. Trong: Hội nghị quốc tế về kinh doanh điện tử và chính phủ điện tử năm 2010,

cụm gần nhau hơn nhưng không phải với các điểm trong nhóm khác ters. Chiều rộng Quảng Châu, trang 3860-3863. doi: 10.1109 / ICEE.2010.968.
Sheshasaayee, A., Logeshwari, L., 2017. Phân tích hiệu quả về phân cụm TPA
hình bóng trung bình được tính toán cho kết quả
các phương pháp phân khúc khách hàng thông minh. Trong: Quốc tế 2017
các cụm thu được bằng cả kỹ thuật phân cụm K-mean và bằng cách Hội nghị về các cơ chế đổi mới cho các ứng dụng công nghiệp (ICIMIA),
kỹ thuật RM K-Means và K-Means. Người ta quan sát thấy rằng Bangalore, trang 784–788.
Machine Translated by Google

AJ Christy và cộng sự. / Tạp chí Đại học King Saud - Khoa học Máy tính và Thông tin 33 (2021) 1251–1257 1257

Srivastava, R., 2016. Xác định các cụm khách hàng sử dụng mô hình RFM: một trường hợp phân loại Hội nghị về Hệ thống Truyền thông và Công nghệ Mạng, Rajkot, trang 435–437.
người mua đa dạng. Int. J. Xe buýt. Hậu môn. Giới thiệu. 4 (2), 45–50.
Memon, KH, Lee, DH, 2017. Thuật toán phân cụm c-mean mờ tổng quát với thông tin cục bộ. Trong: Xử Liu, CC, Chu, SW, Chan, YK, Yu, SS, 2014. A Modified K-Means Algorithm - Thuật toán K-Means hai
lý hình ảnh IET, vol. 11, không. 1, trang 1-12, 1. lớp. Trong: Hội nghị Quốc tế lần thứ 10 về Ẩn thông tin Thông minh và Xử lý Tín hiệu Đa
Zahrotun, L., 2017. Triển khai kỹ thuật khai thác dữ liệu để quản lý quan hệ khách hàng (CRM) trên phương tiện, Kitakyushu, trang 447–450. doi: 10.1109 / IIH-MSP.2014.118.
cửa hàng trực tuyến tokodiapers.com với phân cụm c-mean mờ. Trong: Hội nghị quốc tế lần thứ 2
năm 2017 về Công nghệ Thông tin, Hệ thống Thông tin và Kỹ thuật Điện (ICITISEE), Yogyakarta, Cho, Young, Moon, SC, 2013. Khai thác có trọng số điểm RFM của khách hàng dựa trên mẫu thường
trang 299–303. xuyên cho hệ thống khuyến nghị thương mại u được cá nhân hóa. J. Converg. 4, 36–40.
Jiang, T., Tuzhilin, A., March 2009. Cải thiện các giải pháp cá nhân hóa thông qua việc phân khúc
Tong, L., Wang, Y., Wen, F., Li, X., tháng 11 năm 2017. Nghiên cứu về sự cải thiện lòng trung cơ sở khách hàng một cách tối ưu. IEEE Trans. Dữ liệu kiến thức Eng. 21 (3), 305–320.
thành của khách hàng trong ngành viễn thông dựa trên khai thác dữ liệu NPS. Commun Trung https://doi.org/10.1109/TKDE.2008.163N.
Quốc. 14 (11), 260–268. https://doi.org/10.1109/CC.2017.8233665. Lu, H., Lin, J.Lu., Zhang, G., tháng 5 năm 2014. Một mô hình dự đoán tình hình khách hàng trong
Shah, S., Singh, M., 2012. So sánh Thuật toán K-mean được sửa đổi hiệu quả theo thời gian với K- ngành viễn thông sử dụng tăng cường. IEEE Trans. Ind. Inf. 10 (2), 1659–1665. https://
Mean và K-Medoid Algorithm. Năm: 2012 Quốc tế doi.org/ 10.1109 / TII.2012.2224355.

You might also like