Clustering Prediction Techniques in Defining and Predicting

Machine Translated by Google
Xem các cuộc thảo luận, số liệu thống kê và hồ sơ tác giả cho ấn phẩm này tại: https://www.researchgate.net/publication/324149924
Các kỹ thuật dự đoán theo cụm trong việc xác định và dự đoán khách hàng
Đào tẩu: Bối cảnh Thương mại Điện tử
Bài báo trên Tạp chí Quốc tế về Kỹ thuật Điện và Máy tính · Tháng 8 năm 2018
DOI: 10.11591 / ijece.v8i4.pp2367-2383
CÔNG TÁC BÀI ĐỌC
11 2.460
4 tác giả:
Rachid Ait daoud Abdellah Amine
Đại học Sultan Moulay Sliman Đại học Sultan Moulay Sliman
5 CÔNG BỐ 51 CÔNG TÁC 4 CÔNG BỐ 43 CÔNG TÁC
XEM HỒ SƠ XEM HỒ SƠ
Bouikhalene Belaid Rachid Lbibb Rachid Lbibb
FSTM - Đại học Hassan II de Casablanca

Đại học Sultan Moulay Sliman
181 CÔNG BỐ 973 CÔNG TÁC 39 CÔNG BỐ 207 CÔNG TÁC
XEM HỒ SƠ XEM HỒ SƠ
Một số tác giả của ấn phẩm này cũng đang thực hiện các dự án liên quan này:
Hiệu quả năng lượng trong tòa nhà Xem dự án
Caractère công nhận Xem dự án
Tất cả nội dung sau trang này được tải lên bởi Rachid Ait daoud vào ngày 09 tháng 7 năm 2018.
Người dùng đã yêu cầu nâng cao tệp đã tải xuống.

Tạp chí Quốc tế về Kỹ thuật Điện và Máy tính (IJECE)

Tập 8, số 4, tháng 8 năm 2018, trang 2367 ~ 2383
ISSN: 2088-8708, DOI: 10.11591 / ijece.v8i4.pp2367-2383 2367
Các kỹ thuật dự đoán theo cụm trong xác định và dự đoán

Khách hàng đào tẩu: Trường hợp của bối cảnh thương mại điện tử
Ait Daqud Rachid1 , Amine Abdellah2 , Bouikhalene Belaid3 , Lbibb Rachid4

1,4 Khoa Vật lý, FST, Đại học Sultan Moulay Slimane, Maroc
Khoa Toán ứng dụng 2D, FST, Đại học Sultan Moulay Slimane, Maroc
Khoa Toán học và Tin học, PF, Đại học Sultan Moulay Slimane, Maroc
Thông tin bài viết TRỪU TƯỢNG
Lịch sử bài viết: Với sự phát triển của lĩnh vực thương mại điện tử, khách hàng có nhiều sự lựa
chọn hơn, điều này khuyến khích họ phân chia việc mua hàng của họ giữa một số
Nhận ngày 31 tháng 8 năm 2017 trang thương mại điện tử và so sánh các sản phẩm của đối thủ cạnh tranh, tuy nhiên
Đã sửa đổi ngày 10 tháng 2 năm 2018 điều này làm tăng nguy cơ xáo trộn cao. Đánh giá tài liệu về các mô hình khuấy
Được chấp nhận ngày 17 tháng 2 năm 2018 động khách hàng cho thấy rằng không có nghiên cứu trước đây xem xét cả việc đào
tẩu một phần và toàn bộ trong các môi trường trực tuyến không theo hợp đồng. Thay
vào đó, họ tập trung vào một khiếm khuyết toàn bộ hoặc một phần. Nghiên cứu này
Từ khóa:
đề xuất một mô hình dự đoán về tình hình churn của khách hàng trong bối cảnh
Dự đoán Churn thương mại điện tử, trong đó giai đoạn phân nhóm dựa trên sự tích hợp của phương
Phân cụm pháp k-means và mô hình Độ dài-Tần suất lần truy cập-Tiền tệ (LRFM). Giai đoạn này
Khách hàng náo loạn được sử dụng để xác định churn, sau đó là giai đoạn dự đoán nhiều lớp dựa trên ba
Thương mại điện tử kỹ thuật phân loại: Cây quyết định đơn giản, Mạng nơron nhân tạo và Nhóm cây quyết
định, trong đó biến phụ thuộc phân loại một khách hàng cụ thể thành một khách
Mô hình LRFM
hàng tiếp tục mua hàng trung thành ( Không xáo trộn), một người đào ngũ một phần
Sự dự đoán
(Một phần bị khuấy động), và một người đào ngũ hoàn toàn (Hoàn toàn không trộn
lẫn). Các phép đo trung bình vĩ mô bao gồm độ chính xác trung bình, trung bình vĩ
mô của Độ chính xác, Thu hồi và F-1 được sử dụng để đánh giá hiệu suất của bộ
phân loại trên xác nhận chéo 10 lần. Sử dụng dữ liệu thực từ một cửa hàng trực
tuyến, kết quả cho thấy hiệu quả của mô hình tổng hợp cây quyết định so với các
mô hình khác trong việc xác định cả đào tẩu một phần và toàn bộ trong tương lai.
Bản quyền © 2018 Viện Khoa học và Kỹ thuật Tiên tiến.

Đã đăng ký Bản quyền.
Đồng tác giả:
Ait Daqud Rachid,

Khoa Vật lý, FST, Đại học
Sultan Moulay Slimane,
PB 523, Beni Mellal, Maroc.
Email: daoud.rachid@gmail.com
1. GIỚI THIỆU
Theo số liệu do Trung tâm Ngân hàng Điện tử Liên ngân hàng (IEBC) công bố, các trang web bán hàng
đã thực hiện 3,1 triệu giao dịch thanh toán trực tuyến bằng thẻ tín dụng với tổng trị giá 1,3 tỷ MAD trong
năm 2017. Năm nay, mức tăng trưởng + 81,7% trong và + 52,3% về số tiền đã chi so với năm 2016 [1]. Hơn nữa,
sự phát triển của thương mại điện tử đồng nghĩa với sự gia tăng cạnh tranh trực tuyến. Tuy nhiên, với sự mở
rộng của các trang thương mại điện tử đang hoạt động như vậy ở Ma-rốc, thật khó để một công ty phân biệt mình
với các đối thủ cạnh tranh khác - dù là trong nước hay quốc tế.
Số lượng các trang thương mại ngày càng nhiều đã mang đến cho khách hàng nhiều sự lựa chọn hơn. Ngay
từ đầu, nó khuyến khích họ phân chia việc mua hàng của họ giữa một số trang thương mại điện tử. Tiếp theo,
nó cho phép họ so sánh cũng như đối chiếu các sản phẩm cạnh tranh [2]. Tuy nhiên, lĩnh vực thương mại điện
tử bị ảnh hưởng bởi kiểu quan hệ giữa các công ty và khách hàng của họ (Thiết lập phi hợp đồng). Trong trường
hợp này, khách hàng có thể thay đổi cách mua hàng của họ mà không cần thông báo cho người bán. Đối mặt với
những hạn chế này, việc giữ chân khách hàng bắt buộc không cho phép họ chuyển một số giao dịch mua của họ sang một
Trang chủ tạp chí: http://iaescore.com/journals/index.php/IJECE

2368 ISSN: 2088-8708
đồng thời. Đây là một thách thức chung đối với bất kỳ công ty trực tuyến nào. Do đó, chúng tôi giải quyết câu hỏi sau để
giữ chân khách hàng tốt hơn: Làm thế nào chúng tôi có thể tránh giảm tỷ lệ giữ chân khách hàng? Nói cách khác, làm thế nào
chúng ta có thể giảm bớt sự rời bỏ của khách hàng trong bối cảnh thương mại điện tử? Theo Neslin và cộng sự, [3] và Burez
[4], tồn tại hai cách tiếp cận cơ bản để giải quyết vấn đề này: Một mặt, “cách tiếp cận không có mục tiêu” dựa vào sản phẩm
cao cấp và quảng cáo đại chúng để tăng lòng trung thành với thương hiệu và giữ chân khách hàng. Một ví dụ điển hình về điều
này là nỗ lực của AOL trong việc giảm thiểu sự gián đoạn thông qua phần mềm và nội dung tốt hơn [5]. Mặt khác, “phương pháp
tiếp cận có mục tiêu” dựa trên việc xác định những kẻ quấy rối tiềm năng để tránh đào tẩu bằng cách nhắm mục tiêu những
khách hàng như vậy với các biện pháp khuyến khích trực tiếp [4], [6-9]. Trong nghiên cứu này, chúng tôi quan tâm đến cách
tiếp cận thứ hai. Riêng đối với điều đó, chúng tôi điều tra xem liệu chúng tôi có thể xác định được thời điểm khách hàng bắt
đầu ngừng mối quan hệ với trang web thương mại điện tử hay không để nhắm mục tiêu họ bằng các chương trình duy trì nhằm
tránh việc họ đào tẩu hoàn toàn.
Quản lý mối quan hệ khách hàng và đặc biệt là dự đoán về tình hình biến mất của khách hàng đã nhận được sự
quan tâm ngày càng lớn trong thập kỷ qua. Bảng 1 tóm tắt các mô hình dự đoán tỷ lệ khách hàng bỏ trốn được báo cáo
trong tài liệu trong những năm gần đây. Các đặc điểm khác biệt của mỗi nghiên cứu về lĩnh vực, bối cảnh môi trường,
kiểu đào tẩu và định nghĩa bỏ trốn đều được cung cấp. Như có thể thấy từ Bảng 1, có hai nhận xét chính: (1) Cơ sở môi
trường: rất nhiều nghiên cứu nằm trong bối cảnh hợp đồng, được đặc trưng bởi sự tồn tại của hợp đồng giữa công ty và
khách hàng, trong trường hợp như vậy. , ngày churn được biết rõ ràng, và nó khớp với ngày hủy hợp đồng. (2) Đào tẩu
một phần hoặc toàn bộ: hầu hết các nghiên cứu đó xem xét đào tẩu toàn bộ, trong khi chỉ có một số nghiên cứu sử dụng
mô hình dự đoán để xác định đào tẩu từng phần [6], [10] - [12]. Hơn nữa, mỗi nghiên cứu đó định nghĩa sự churn của
khách hàng khác nhau, điều này đặt ra câu hỏi sau: Cái nào thích hợp hơn?
Bảng 1 cho thấy vấn đề churn đang được nghiên cứu trong lĩnh vực thương mại điện tử. Hơn nữa, tất cả các
phân tích trong lĩnh vực này đều xem xét toàn bộ số vụ đào tẩu (cột đào tẩu). Đầu tiên, nó kết hợp mô hình LRFM và kỹ
thuật phân cụm trong khoảng thời gian hiệu chuẩn (T1) để phân đoạn tất cả khách hàng thành các cụm đồng nhất, sau đó
một mẫu LRFM sẽ được gán cho mỗi cụm [13]. Thay đổi trong mô hình LRFM (Di chuyển khách hàng từ một nhóm có giá trị
quan trọng trong T1 sang nhóm khác có giá trị thấp hơn trong khoảng thời gian dự đoán (T2)) có thể là một tín hiệu
đào tẩu một phần hoặc toàn bộ. Thứ hai, nó giới thiệu các kỹ thuật phân loại để xây dựng các mô hình dự đoán nhằm dự
đoán cả việc đào tẩu một phần và toàn bộ nhằm giảm thiểu nguy cơ bỏ mạng.
Mặt khác, trái ngược với nghiên cứu chỉ tìm cách giữ chân những khách hàng có lợi nhuận [6], [7], [14], [15]
hoặc những khách hàng dành nhiều nỗ lực cho toàn bộ cơ sở khách hàng [9], [16], [ 17], nghiên cứu của chúng tôi không
chỉ tập trung vào khách hàng thuộc các nhóm đại diện cho khách hàng cốt lõi, mà còn tập trung vào những người thể
hiện sự thay đổi tích cực trong hành vi mua hàng của họ ngay cả khi họ được xếp vào các nhóm không đóng góp tích cực
vào lợi nhuận.
Việc tạo ra một chương trình duy trì nhắm mục tiêu đến tất cả các loại khách hàng sẽ rất tốn kém cho công
ty. Bằng cách áp dụng phương pháp chỉ tập trung vào những khách hàng có lợi nhuận, các công ty, đặc biệt là những
công ty làm việc trong lĩnh vực thương mại điện tử, có thể mất đi một số khách hàng. Điều này có thể được cho là do
họ thiếu sự tham gia của họ với những người hưởng lợi từ các chương trình giữ chân người dùng, điều này sẽ dẫn đến
việc tăng tỷ lệ rời đi của khách hàng, kéo theo đó là giảm lợi nhuận. Những khách hàng này thực sự đáng được công ty
quan tâm; vì vậy không nên loại bỏ chúng mà nên xếp chúng vào loại khác. Đây là một điểm quan trọng vì không công ty
nào muốn bỏ lỡ cơ hội chuyển đổi một khách hàng không hài lòng trước đây thành khách hàng trung thành. Những khách
hàng này là những người thể hiện sự thay đổi tích cực trong hành vi mua hàng của họ ngay cả khi họ được xếp vào các
nhóm không đóng góp tích cực vào lợi nhuận. Việc xác định những khách hàng này sẽ được thảo luận trong các phần sau.
Ví dụ, trong một tình huống mà mục tiêu của công ty là chỉ giữ lại những khách hàng sinh lời, công ty nên
khám phá lý do tại sao khách hàng lại bỏ đi và đến với đối thủ cạnh tranh. Một phân tích về thời gian đối với phân
khúc khách hàng sinh lời của họ cho thấy rằng một số khách hàng rời khỏi trang web thương mại điện tử vì phí giao
hàng không được miễn phí. Sau đó, công ty quyết định giảm chi phí giao hàng cho khách hàng có lợi nhất để giữ chân
họ. Tuy nhiên, những khách hàng ít sinh lời hơn không được phục vụ với mức giảm này; chỉ những khách hàng có lợi nhuận
mới hài lòng. Do đó, chỉ nhắm mục tiêu đến những khách hàng sinh lời không phải là chiến lược tối ưu để tăng tỷ lệ
giữ chân bởi vì một nhóm khách hàng đã sinh lời trong quá khứ, không có nghĩa là nó sẽ tiếp tục như vậy trong tương
lai [18].
Phần còn lại của bài báo này được sắp xếp theo 4 phần khác, phương pháp nghiên cứu bao gồm phương pháp phân
đoạn và kỹ thuật khai thác dữ liệu được sử dụng trong nghiên cứu này được mô tả ngắn gọn trong Phần 2, sau đó là một
nghiên cứu thực nghiệm trong Phần 3 để chứng minh cách tiếp cận dự đoán này hoạt động trong thực tế, trong khi trong
phần thứ tư, chúng ta thảo luận về kết quả. Bài báo kết thúc với phần kết luận, hạn chế và một số vấn đề cần nghiên
cứu trong tương lai.
Int J Elec & Comp Eng, Tập 8, số 4, tháng 8 năm 2018: 2367 - 2383
Các kỹ thuật dự đoán theo cụm trong việc xác định và dự đoán khách hàng đào tẩu:… (Ait Daqud Rachid)
Tổng
quan
tài
liệu
N.
Holtrop
và
cộng
sự.
(2017)
[24] Niccolò
Gordinia,
Valerio
Vegliob
(2017)
[9] Ozden
Gur
Ali
và
Umut
Arıturk
(2014)
[8] MAH
Farquad,
và
cộng
sự
(2014)
[15] K.
Kyoungok
và
cộng
sự.
(2014)
[22] AT
Jahromi
và
cộng
sự.
(2014)
[7] Faris
(2014)
[21] M.
Clemente-
Císcar,
al.
(2014)
[11] Kristof
Coussement,
et
al.
(2013)
[57] Bingquan
Huang,
et
el.
(2012)
[20] VL
Miguéis,
et
al.
(2012)
[10] Xiaobing
Yu,
et
al.
(2011)
[17] Xie,
et
al.
(2009)
[19] Poel
(2007)
[4] Burez
và
van
den Jae-
Hyeon
Ahna,
et
al.
(2006)
[12] Shin-
Yuan
Hung,
et
al.
(2006)
[14] Buckinx
và
van
den
Poel
(2005)
[6]
Nghiên
cứu
này Ssu-
Han
Chen
(2016)
[23]
Các
ngành
Thương
mại
điện
tử Các
dịch
vụ
tài
chính Thương
mại
điện
tử
(B2B) Thương
mại
điện
tử Các
dịch
vụ
tài
chính Các
dịch
vụ
tài
chính Viễn
thông Thương
mại
điện
tử
(B2B) Viễn
thông Bán
lẻ Cờ
bạc
trực
tuyến Viễn
thông Bán
lẻ Thương
mại
điện
tử Các
dịch
vụ
tài
chính ký
Đăng
truyền
hình
trả
tiền Viễn
thông Viễn
thông Bán
lẻ
Cài
đặt
môi
trường
Môi
trường
trực
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
trực
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
trực
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
trực
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
trực
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
trực
tuyến
Thiết
lập
phi
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
hợp
đồng / Môi
trường
ngoại
tuyến
Thiết
lập
phi
hợp
đồng /
tẩu
Đào
Một
phần
và
toàn
bộ Tổng
cộng Tổng
cộng Tổng
cộng Tổng
cộng Tổng
cộng Tổng
cộng Tổng
cộng Tổng
cộng Một
phần Tổng
cộng Tổng
cộng Một
phần Tổng
cộng Tổng
cộng Tổng
cộng Một
phần
và
toàn
bộ Tổng
cộng Một
phần
nghĩa
Định
Churn
Khi
công
ty
đã
hoạt
động
(tức
là
có
ít
nhất
một
giao
dịch
trong
năm)
nhưng
không
có
hoạt
động
(tức
là
mua
hàng)
trong
năm. Khách
hàng
đã
tuyên
bố
ngừng
hoạt
động
nếu
quy
mô
danh
mục
đầu
tư
của
cô
ấy
giảm
xuống
dưới
một
giá
trị
ngưỡng
cụ
thể
và
giữ
nguyên
như
vậy
trong
sáu
tháng
liên
tiếp. Khách
hàng
bỏ
dịch
vụ
hoặc
chuyển
sang
đối
thủ
cạnh
tranh
vào
một
ngày
gần
với
một
ngày
cụ
thể. Người
dùng
rời
khỏi
công
ty. Không
đề
cập
đến. Những
khách
hàng
trong
một
khoảng
thời
gian
nhất
định
đã
không
mua
bất
kỳ
thứ
gì
hoặc
những
khách
hàng
trong
tất
cả
các
khoảng
thời
gian
tiếp
theo
đã
chi
tiêu
dưới
40%
số
tiền
đã
chi
tiêu
trong
khoảng
thời
gian
tham
chiếu. Không
đề
cập
đến. Người
churner
được
định
nghĩa
là
người
đăng
ký
tự
nguyện
rời
đi
Khách
hàng
thay
đổi
mô
hình
LRFM,
thay
đổi
hành
vi
mua
hàng. Khách
hàng
với
công
ty
bảo
hiểm
vào
đầu
năm
nhưng
không
còn
vào
cuối
năm. Khách
hàng
có
vài
phiên
trong
vòng
8-12
tháng
sau
khi
đăng
ký. Không
hoạt
động
trong
nửa
cuối
năm. Con
bạc
không
chơi
trong
một
khoảng
thời
gian. Khách
hàng
ngừng
kinh
doanh. Thay
đổi
trạng
thái
của
khách
hàng. Mô
hình
giao
dịch
chuyển
khách
hàng.
Chuyển
sự
trung
thành
từ
nhà
cung
cấp
dịch
vụ
này
sang
nhà
cung
cấp
dịch
vụ
khác Tập
hợp
các
định
nghĩa
của
churn. Thuê
bao
không
gia
hạn
hoặc
thanh
toán.
Bảng 1. Nhận xét Văn học
2369 ISSN: 2088-8708 Int J Elec & Comp Eng
2370 ISSN: 2088-8708
2. PHƯƠNG PHÁP NGHIÊN CỨU

Mục đích của nghiên cứu này là xây dựng mô hình dự đoán khách hàng rời đi trong lĩnh vực thương mại
điện tử bằng cách sử dụng các kỹ thuật phân nhóm và dự đoán để dự đoán những khách hàng có khả năng rời đi
trong tương lai gần nhằm giảm thiểu nguy cơ bỏ trốn.
2.1. Hồ sơ khách hàng

Phân khúc thị trường là quá trình xác định các nhóm chính trong thị trường chung có chung các đặc
điểm và thói quen tiêu dùng [25]. Mô hình RFM, được đề xuất bởi Hughes (1994) [26], là một trong những phương
pháp phổ biến nhất để phân khúc và xác định giá trị khách hàng trong các công ty. ], [27] - [29]. Trong phần
này, chúng ta thảo luận về k-means như kỹ thuật phân cụm và mô hình LRFM là phiên bản mở rộng của mô hình
RFM xem xét độ dài quan hệ khách hàng (L) mà chúng tôi sử dụng cho nhiệm vụ lập hồ sơ khách hàng.
2.1.1. Mô hình RFM và LRFM

Mô hình RFM là một phương pháp hiệu quả để phân đoạn và nó cũng giống như một phân tích hành vi có
thể được sử dụng để phân đoạn thị trường [30], [31]. A. Hughes [30] mô tả rằng tài sản chính của phương pháp
RFM một mặt là thu được phân tích hành vi của khách hàng để nhóm họ thành các cụm đồng nhất và mặt khác, để
phát triển một kế hoạch tiếp thị phù hợp đến từng phân khúc thị trường cụ thể. Phân tích RFM cải thiện phân
khúc thị trường bằng cách kiểm tra thời điểm (lần truy cập gần đây), tần suất (tần suất) và số tiền đã chi
tiêu (tiền tệ) cho một mặt hàng hoặc dịch vụ cụ thể [32]. A. Yang [32] đã tóm tắt rằng những khách hàng đã
mua gần đây nhất, thường xuyên nhất và đã chi nhiều tiền nhất sẽ có nhiều khả năng phản ứng với các chương
trình khuyến mãi trong tương lai. nó để kiểm tra xem liệu chúng có đạt được kết quả tốt hơn so với
Mô hình RFM hay không [33] - [35]. Ví dụ, Chang và Tsay [36] đề xuất mô hình LRFM, bằng cách tính đến độ dài
quan hệ khách hàng, để giải quyết vấn đề Mô hình RFM liên quan đến việc khó phân biệt giữa khách hàng, những
người có mối quan hệ lâu dài hay ngắn hạn với công ty. . Ngoài ra, S. Chow và R. Holden [37] cho rằng lòng
trung thành của khách hàng và khả năng sinh lợi phụ thuộc vào mối quan hệ giữa công ty và khách hàng. Về vấn
đề này, để xác định hầu hết các khách hàng trung thành, cần phải xem xét độ dài quan hệ của khách hàng (L),
trong đó L được định nghĩa là số khoảng thời gian (chẳng hạn như ngày) từ lần mua hàng đầu tiên đến lần mua
hàng cuối cùng. trong cơ sở dữ liệu.
2.1.2. Phương pháp K-mean

Phân cụm K-mean là thuật toán phổ biến nhất được sử dụng để phân cụm n vectơ dựa trên các thuộc tính thành
k phân vùng, trong đó k <n, tùy thuộc vào một số biện pháp. Tên gọi này xuất phát từ thực tế là k cụm được xác định,
và tâm của một cụm là giá trị trung bình của tất cả các vectơ trong cụm này. Thuật toán bắt đầu với việc chọn k
centroid ban đầu ngẫu nhiên, sau đó gán các vectơ cho centroid gần nhất bằng cách sử dụng khoảng cách Euclide và
tính toán lại các centroid mới làm phương tiện của các vectơ dữ liệu được chỉ định. Quá trình này được lặp lại nhiều
lần cho đến khi các vectơ không còn bị thay đổi cụm giữa các lần lặp [38].
Tuy nhiên, trong kỹ thuật k-mean, số lượng cụm được chọn ngẫu nhiên, có nghĩa là kết quả phân nhóm
sẽ trở nên không đáng tin cậy nếu số lượng cụm được cho là không chính xác [39], [40], điều này đặt ra câu
hỏi cơ bản sau: Làm thế nào để chọn đúng số lượng các cụm mong đợi (k)?.
Một số loại chỉ số chất lượng phân nhóm hiệu quả có thể giúp xác định con số tốt nhất. Trong nghiên
cứu này, chúng tôi đã sử dụng hai phương pháp để xác định số lượng cụm tối ưu cho k phương tiện. Các phương
pháp này bao gồm việc tối ưu hóa một tiêu chí, chẳng hạn như tổng các hình vuông trong cụm và hình bóng
trung bình. Các phương pháp tương ứng được đặt tên là phương pháp khuỷu tay và bóng. Trong nghiên cứu này,
tổng sai số bình phương (SSE) và hệ số hình bóng trung bình được thể hiện trong Công thức (1) và (2)
tương ứng, được kết hợp để đo chất lượng phân nhóm và xác định số lượng phân nhóm tối ưu. Cụ thể, chúng tôi
áp dụng kỹ thuật k-mean dưới các giá trị k khác nhau và sau đó chúng tôi vẽ các đường cong của SSE và hệ số
hình bóng trung bình dựa trên số lượng cụm để phân tích hai đường cong và xác định số lượng cụm tối ưu. Số
lượng phân nhóm tối ưu có thể được tìm thấy trong một tập dữ liệu bằng cách tìm kiếm số lượng các cụm tại đó
tồn tại một điểm đầu gối, đỉnh hoặc điểm nhúng trong biểu đồ của phép đo đánh giá khi được vẽ dựa trên số
lượng các cụm [41].
‖ ‖ (1)
Trong đó k là số cụm, yi là đối tượng trong cụm Ci và ci là trung tâm của cụm Ci .
(2)
Int J Elec & Comp Eng ISSN: 2088-8708 2371
Trong đó ai là khoảng cách trung bình của đối tượng I đến tất cả các đối tượng khác trong cụm của nó; đối với đối tượng
I và bất kỳ cụm nào không chứa nó, hãy tính khoảng cách trung bình của đối tượng tới tất cả các đối tượng trong cụm
đã cho và bi là giá trị nhỏ nhất của các giá trị đó đối với tất cả các cụm. [42], [43].
Nghiên cứu này kết hợp mô hình K-means và LRFM trong lĩnh vực thương mại điện tử để phân chia cơ sở khách
hàng thành các cụm đồng nhất theo các giá trị L, R, F và M của họ. Tương tự như Chang và Tsay [36], chúng tôi sẽ sử
dụng giá trị LRFM trung bình của mỗi cụm để so sánh với tổng giá trị LRFM trung bình của tất cả các cụm.
Nếu giá trị trung bình (L, R, F, M) của một cụm lớn hơn tổng giá trị trung bình, một thanh vượt sẽ xuất hiện. Tuy nhiên, nếu
giá trị trung bình (L, R, F, M) của một cụm nhỏ hơn tổng giá trị trung bình, một thanh dưới sẽ xuất hiện. (nghĩa là: Giá trị
R cao hơn; khách hàng đã mua hàng gần đây,: Giá trị R thấp hơn; khách hàng đã không mua hàng trên cửa hàng trực tuyến trong
một thời gian dài).

Chang và Tsay [36] dựa trên Ha và Park [44] đề xuất thêm phân loại khách hàng bằng cách tổng hợp mười sáu tổ
hợp của mô hình LRFM cho năm loại nhóm khách hàng theo các mẫu LRFM của họ, chẳng hạn như khách hàng cốt lõi, khách
hàng tiềm năng, khách hàng đã mất, mới khách hàng và khách hàng tiêu thụ tài nguyên. Cụ thể, khách hàng cốt lõi bao
gồm L R F M , L R F M , và L R F M .
Khách hàng tiềm năng bao gồm L R F M , L R F M và L R F M . Khách hàng bị mất bao gồm L R F
M , L R F M , L R F M , và L R F M . Khách hàng mới bao gồm L R F M , L R F M ,
L R F M và L R F M . Cuối cùng, khách hàng tiêu thụ tài nguyên là L R F M và L R F M .
Khi các tổ hợp LRFM khác nhau được xác định trong khoảng thời gian T, khách hàng có thể được phân loại thành
các nhóm thích hợp như khách hàng cốt lõi, khách hàng tiềm năng, khách hàng đã mất, khách hàng mới và khách hàng tiêu
thụ tài nguyên. Đầu tiên, chúng tôi tập trung vào khách hàng thuộc về khách hàng cốt lõi, khách hàng mới (không công
ty nào muốn bỏ lỡ khách hàng mới), thứ hai, chúng tôi tính đến những khách hàng thuộc về nhóm khách hàng còn lại trong
giai đoạn T và sau đó được chuyển đổi thành khách hàng cốt lõi trong T + 1. Cụ thể hơn, các khách hàng trong các nhóm
chú ý của chúng tôi thuộc các mẫu sau:
một.
, , , , và trong một khoảng thời gian T.
b. Những khách hàng không thuộc giai đoạn T với các mẫu được liệt kê trong (1), nhưng trong giai đoạn T + 1, LRFM của họ
mô hình chuyển đổi thành một trong các mô hình được đề cập trong (1).
Những khách hàng được tập hợp trong khoảng thời gian T với những khách hàng tiềm năng, bị mất hoặc tiêu thụ tài nguyên
và vẫn ở trong cùng một nhóm hoặc được chuyển đổi sang nhóm có giá trị thấp hơn trong T + 1, họ sẽ bị loại bỏ.
2.2. Sự xáo trộn một phần và toàn bộ

Trong số những trở ngại chính đầu tiên gặp phải đối với dự đoán churn của khách hàng trong các doanh nghiệp
phi hợp đồng là khó khăn trong việc xác định churn vì các đặc điểm cần quan sát để nói rằng một khách hàng đã bỏ trốn
hoàn toàn hoặc một phần không được xác định rõ ràng [11].
Để giải quyết các vấn đề trên, mô hình LRFM và kỹ thuật phân cụm (k-mean) được kết hợp với nhau. Nghiên cứu
này đề xuất một quy trình mới bằng cách kết hợp các giá trị định lượng của Thuộc tính LRFM, được trích xuất trong
khoảng thời gian T, vào thuật toán K-mean để xác định các loại hồ sơ khách hàng khác nhau (các mẫu LRFM khác nhau). Sau
đó, chúng tôi xác định sự thay đổi mẫu LRFM của khách hàng từ khách hàng cốt lõi () sang khách hàng tiềm năng () là sự
,
đào tẩu một phần. ,Tương tự,) nếu
hoặc khách hànghàng
một khách thaymới
đổi , LRFM của
( mô hình , mình từ
hàng
mộtcốt
trong
lõihai
() loại mới, ()
hoặc khách hàng sau: thành,
khách
) hoặc các nhóm khách hàng tiêu thụ ít tài nguyên ( khách hàng đã mất () hoặc nhóm khách hàng tiêu
thụ nhiều tài nguyên (), trong trường hợp này, chúng ta đang nói về sự đào tẩu hoàn toàn. Điều này cho thấy rằng sự ,
, thay đổi của khách hàng trong ,các mẫu LRFM

, là một
Trong
tín khi
hiệuđó,
sớmnhững
của việc
khách
đào
hàng một ,phần
tẩutrung thành
hoặc, toàn
với bộ.,
mô hình
tích cực hiện có của họ có khả năng ở lại.
Với mục đích này, như trong Hình 1, chúng ta xem xét hai giai đoạn con bằng nhau T1 và T2. T1 được sử dụng để xác định
các nhóm khách hàng khác nhau (các mẫu LRFM khác nhau) và chỉ định mỗi khách hàng vào nhóm thích hợp của nó. Khoảng
thời gian T2 được sử dụng để xác định sự đào tẩu một phần hoặc toàn bộ. Hình 2 minh họa cách tiếp cận được đề xuất của
chúng tôi để xác định đào tẩu một phần và toàn bộ, và toàn bộ quá trình được tóm tắt trong Hình 3.
2372 ISSN: 2088-8708
T1 T2
Tháng 11 năm 2013… … Tháng 6 năm 2014 Tháng 7 năm 2014… … Tháng 2 năm 2015
Điểm giữa quan sát

T1.1 T1.2
T1: Giai đoạn xác định các nhóm khách hàng khác nhau T2: Giai đoạn xác định đào tẩu một phần và toàn bộ
Hình 1. Thời kỳ quan sát. T1 khoảng thời gian tám tháng này (từ tháng 11 năm 2013 đến tháng 6 năm 2014) cũng
được sử dụng để tính các biến độc lập (thời gian hiệu chuẩn) của mô hình. T2, khoảng thời gian tám tháng này
(từ tháng 7 năm 2014 đến tháng 2 năm 2015) được sử dụng để lấy biến phụ thuộc (khoảng thời gian dự đoán)
Khách hàng tiềm năng

Khách hàng cốt lõi
A1
A2
A1: Đào tẩu một phần
A2: Tổng số lần đào tẩu

Tiêu thụ tài nguyên
khách hàng
Khách hàng tiềm năng
Những khách hàng mới

B1
B2
B1: Đào tẩu một phần
B2: Tổng số lần đào tẩu

Tiêu thụ tài nguyên
B2
khách hàng
Khách hàng bị mất
T1 T2
x x
Thời gian
Hình 2. Độ lệch của khách hàng Mô hình LRFM theo thời gian để xác định thời gian nghỉ của khách hàng
Tập dữ liệu
Chọn khách hàng có Chọn khách hàng với
date_session trong T1 date_session trong T2
Trích xuất các giá trị của L, R, F và M cho mỗi Trích xuất các giá trị của L, R, F và M cho mỗi
khách hàng khách hàng
Chuẩn hóa các giá trị của tất cả các biến (Z Chuẩn hóa các giá trị của L, R, F và M trong T2 theo
điểm chuẩn hóa) các tham số chuẩn hóa như đã cho trong T1
Xác định số lượng cụm (K) tốt nhất bằng cách sử Ứng dụng của công cụ chỉ định cụm chỉ định khách
dụng phương pháp SSE và hình bóng hàng hiện tại ở T2 cho cụm hiện có, những khách
hàng này có được bằng phương tiện k trong T1
Sử dụng số (K) làm tham số đầu vào của K-mean để
phân đoạn tất cả khách hàng thành
(K) cụm theo các giá trị L, R, F và M của chúng
Mỗi khách hàng sẽ được chỉ định đến cụm gần nhất của nó
K cụm được xác định và mỗi khách hàng được
chỉ định vào nhóm thích hợp của nó
Thay đổi mô hình LRFM từ khách hàng cốt lõi Thay đổi mô hình LRFM từ khách hàng cốt lõi
hoặc khách hàng mới (T1) sang tiềm năng hoặc khách hàng mới (T1) thành bị mất hoặc lên cao
khách hàng hoặc nhóm khách hàng tiêu tiêu thụ các nhóm khách hàng tài
thụ ít tài nguyên (T2) nguyên (T2)
Đào tẩu một phần Tổng số lần đào tẩu
Hình 3. Xác định thời gian churn trong phương pháp luận cài đặt không theo hợp đồng dựa trên mô hình LRFM và kỹ
thuật K-means
2.3. Kỹ thuật phân loại

Mục tiêu của nghiên cứu này là phát triển một mô hình dự đoán về sự rời đi của khách hàng trong bối
cảnh không hợp đồng, có thể phân biệt giữa những khách hàng có khả năng rời khỏi một phần hoặc toàn bộ trong
tương lai gần và những người có khả năng ở lại với công ty. về các giao dịch lịch sử và đặc điểm của khách hàng.
Để đạt được mục tiêu này, ba mô hình được đề xuất, mô hình đầu tiên dựa trên kỹ thuật cây quyết định (DT), mô
hình thứ hai dựa trên mạng nơ-ron nhân tạo (ANN) và mô hình thứ ba dựa trên một tập hợp các cây quyết định. Chúng
tôi lưu ý rằng tất cả các mô hình của chúng tôi đều được xây dựng bằng Nền tảng phân tích KNIME 3.3.2. Sau đây là
mô tả ngắn gọn cho các kỹ thuật khai thác dữ liệu đã biết được sử dụng cho nhiệm vụ này.
2.3.1. Mạng nơ-ron nhân tạo (ANN)

Không giống như các phương pháp thống kê thông thường, mạng nơ-ron nhân tạo không cần bất kỳ giả thuyết nào về
các biến, chúng rất thích hợp để xử lý các vấn đề phức tạp không có cấu trúc, tức là các vấn đề không có tiên
nghiệm xác định dạng của mối quan hệ giữa các biến.
Mạng nơron có thể được phân biệt thành perceptron một lớp và perceptron nhiều lớp (MLP), trong bài báo
này, chúng tôi sử dụng cấu trúc MLP cho phép hiện thực hóa các ứng dụng đa dạng nhất. Một mạng MLP thường bao gồm
một tập hợp hữu hạn các tế bào (tế bào thần kinh), được tổ chức thành các lớp kế tiếp nhau. Lớp đầu tiên bao gồm
một số tế bào thần kinh được gọi là lớp đầu vào, lớp cuối cùng là lớp đầu ra và các lớp trung gian (nếu có) là
các lớp ẩn. Các tế bào thần kinh ở các lớp khác nhau được kết nối với nhau bằng các chức năng tiếp tuyến sigmoid
hoặc hyperbol được sử dụng làm chức năng kích hoạt trong Nhận thức nhiều lớp. Các chi tiết của MLP có thể được
tìm thấy trong [45].
2.3.2. Cây quyết định đơn giản (DT)

Cây quyết định (DT) là một trong những kỹ thuật khai phá dữ liệu nhất để khám phá tri thức và nó thường
được sử dụng cho mục đích phân loại và dự đoán [46]. Sự đơn giản và dễ dàng giải thích
2374 ISSN: 2088-8708
kết quả quan sát của những người ra quyết định là lý do chính khiến nó phổ biến trong kinh doanh so với các kỹ
thuật dự đoán khác [47]. Quá trình phát triển DT thường bao gồm hai giai đoạn riêng biệt, tạo cây và tỉa cây.
Đầu tiên, các kỹ thuật bắt đầu tìm kiếm trong khóa đào tạo đặt một thuộc tính cung cấp thông tin thu được tốt
nhất ở cấp độ nút gốc, và sau đó chia cây thành các cây con. Quy trình tương tự được sử dụng để phân vùng đệ
quy cây con theo cùng một quy tắc, sau đó việc phân vùng sẽ dừng lại khi đạt đến nút lá. Một số thuật toán như
C4.5, C5.0, CHAID và CART được sử dụng để tạo ra các cây, trong nghiên cứu này chúng tôi xem xét thuật toán
C4.5. Các chi tiết của DT có thể được tìm thấy trong [48], [49].
2.3.3. Nhóm cây quyết định (DTE)

Mặc dù có những ưu điểm của phương pháp cây quyết định được đề cập ở trên, nhưng nó cũng có một số
nhược điểm. Ví dụ, Dudoit, Fridlyand và Speed [50] lưu ý một số nhược điểm của nó; ví dụ như hiệu suất dưới mức
tối ưu của nó và thiếu mạnh mẽ. Trong số những cách tốt nhất để giải quyết chúng là việc tạo ra một quần thể
cây sau đó là một cuộc bỏ phiếu cho lớp phổ biến nhất [51]. Giải pháp này là kết quả của một số nhà nghiên cứu
đã tối ưu hóa kỹ thuật cây Quyết định.
Về vấn đề này, chúng tôi sử dụng cả nút Tree Ensemble Learner và Tree Ensemble Predictor của Knime để
xây dựng mô hình thứ ba của chúng tôi dựa trên nhóm cây quyết định.
Nút Tree Ensemble Learner xây dựng một tập hợp các cây quyết định, như một biến thể của rừng ngẫu
nhiên. Mỗi mô hình cây quyết định được huấn luyện trên một tập con khác nhau của các hàng và / hoặc trên một
tập con khác nhau của các cột, được chọn ngẫu nhiên ở mỗi lần lặp. Mô hình đầu ra sau đó là một tập hợp của các
mô hình cây quyết định được đào tạo khác nhau. Các tham số học cây quyết định tương tự như bộ phân loại Rừng
ngẫu nhiên được mô tả bởi Leo Breiman [51]. Nút Tree Ensemble Predictor áp dụng tất cả các cây quyết định cho
mỗi hàng dữ liệu và sử dụng đa số phiếu đơn giản để dự đoán.
3. NGHIÊN CỨU NHÂN VIÊN

3.1. Chung
Dữ liệu được phân tích trong nghiên cứu này được cung cấp từ một trong những nhà bán lẻ trực tuyến lớn
nhất chuyên về điện tử, thời trang, đồ gia dụng và đồ trẻ em ở Ma-rốc. Khi khách hàng truy cập website, hệ thống
sẽ ghi lại quá trình đăng nhập, đăng xuất, mua sắm và trạng thái cuối cùng của mỗi phiên. Khách hàng có thể
thực hiện bốn loại sự kiện, đó là “Phiên có lượt xem sản phẩm”, “Phiên có thêm vào giỏ hàng”, “Phiên có tính
năng trả phòng” và “Phiên có giao dịch”. Bộ dữ liệu bao gồm 2783 khách hàng đã truy cập trang web thương mại
điện tử. Cụ thể, bộ dữ liệu bao gồm thông tin ở cấp độ khách hàng cá nhân, chẳng hạn như đăng ký khách hàng,
đăng nhập, phiên, giao dịch và nhật ký web trong trang web thương mại điện tử.
Hồ sơ giao dịch của khách hàng trong khoảng thời gian từ ngày 1 tháng 11 năm 2013 đến ngày 28 tháng 2 năm 2015 đã được
sử dụng.
Khách hàng có bốn phương thức thanh toán: Tiền mặt khi nhận hàng, thẻ tín dụng trực tuyến, chuyển khoản ngân hàng và
thanh toán ba đợt.
Bản ghi Giao dịch cho mỗi khách hàng phải được chuyển đổi sang định dạng có thể sử dụng cho LRFM
người mẫu. Từ tập dữ liệu tích hợp, các biến L, R, F và M được trích xuất cho từng khách hàng.
Định nghĩa của mô hình LRFM được sử dụng trong nghiên cứu này được trình bày trong Bảng 2.
Thống kê mô tả cho các biến (LRFM) trong T1 được cung cấp trong Bảng 3.
Bảng 2. Định nghĩa của Mô hình LRFM

Tên thuộc tính Nội dung dữ liệu
Chiều dài (L) Đề cập đến số ngày từ lần mua đầu tiên đến lần mua cuối cùng
Lần truy cập gần đây (R) Đề cập đến số ngày giữa ngày đầu tiên của kỳ nghiên cứu và ngày mua cuối cùng.
Tần số (F) Đề cập đến số lượng giao dịch được quan sát trong kỳ
đã phân tích
Tiền tệ (M) Là tổng số tiền khách hàng đã chi tiêu trong kỳ được phân tích.
(Dirhams của Maroc)
Bảng 3. Mô tả về Độ dài, Lần truy cập gần đây, Tần suất và Tiền tệ trong T1
Biến Tối Tối
Trung Độ lệch chuẩn
Chiều dài (L) đa bình 192,87
Lần truy cập gần đây (R)

656,68 164,77 76.05
Tần số (F) 8.67 4,99
Tiền tệ (M) 813241 17 13.723,00 thiểu 2 1 1 87,00 4431.15 4327,72
3.2. Phân cụm theo K-mean dựa trên các biến LRFM
Khoảng thời gian tám tháng đầu tiên của dữ liệu có sẵn, từ tháng 11 năm 2013 đến tháng 6 năm 2014 (T1), được
sử dụng để xác định các nhóm khách hàng khác nhau (các mẫu LRFM khác nhau). Do đó, 2692 khách hàng đã truy cập trang
web thương mại điện tử như thế nào trong giai đoạn này được chọn.
Theo mô hình đề xuất được mô tả trong Phần 3, Nền tảng phân tích KNIME 3.3.2 được sử dụng.
Do đó, chúng tôi tìm thấy bảy nhóm khách hàng có hành vi LRFM khác nhau. Số lượng cụm tối ưu (k = 7) thu được
dựa trên phương pháp khuỷu tay và hình bóng. Hình 4 cho thấy các đồ thị của SSE và hệ số hình bóng trung bình
so với số lượng các cụm cho k-mean. Một đầu gối khác biệt trong SSE và một đỉnh khác biệt trong hệ số hình
bóng xuất hiện khi số lượng cụm bằng 7.
Hình 4. Phương pháp hình bóng khuỷu tay và hình bóng trung bình để xác định số lượng cụm tối ưu
Bảng 4 là tóm tắt về cách phân nhóm của bảy nhóm này, mỗi nhóm có số lượng khách hàng tương ứng, độ
dài trung bình (L), lần truy cập gần đây trung bình (R), tần suất trung bình (F), tiền tệ trung bình (M) và
cột cuối cùng hiển thị Mẫu LRFM cho mỗi cụm. Hầu hết khách hàng ở các Cụm 1, 3 và 5.
Trong khi, cụm 6 bao gồm số lượng khách hàng tối thiểu (chỉ 77 khách hàng).
Như đã đề cập trước đó, chúng tôi tập trung nghiên cứu vào khách hàng thuộc về khách , và
(Cụm 2, 3 và 4) và những khách hàng mới có giá trị cao hàng cốt lõi (Nhóm 0), cả hai đều chiếm 51,23%
trong tổng số cơ sở dữ liệu khách hàng có sẵn.
Bảng 4. Thống kê mô tả của bảy cụm dựa trên phương pháp K-Means trong T1
Số lượng cụm trung bình (R) Trung bình Trung bình Trung bình Họa tiết
cluster_0 332 (L) 282,31 211,26 (F) 12,41 (M) 8204,28
cluster_1 760 752,87 48,31 4,47 857,62
cluster_2 375 707,71 206,59 13.34 2187,08
cluster_3 509 742,81 210,91 14,65 10817,28
cluster_4 210 741.10 209,95 6,97 8266,72
cluster_5 428 699,51 212,89 3,93 1063,69
cluster_6 77 35,52 214,66 2,91 405.12
Trong giai đoạn thứ hai T2 (từ tháng 7 năm 2014 đến tháng 2 năm 2015), chúng tôi giới thiệu nút chỉ
định cụm (chỉ định khách hàng hiện tại trong T2 cho các nhóm hiện có, được lấy bằng phương tiện k trong T1)
để xác định khách hàng đã di chuyển từ khách hàng cốt lõi ở T1 đến khách hàng đào tẩu trong khoảng thời gian
tám tháng tiếp theo. Áp dụng định nghĩa gián đoạn một phần toàn bộ của chúng tôi được mô tả trong phần 3.2
dẫn đến 254 lần đào tẩu một phần (17,81% = 254/1426) và 363 lần đào tẩu tổng cộng (25,45% = 363/1426), trong
đó 1426 đại diện cho số lượng khách hàng đang được điều tra (cụm_2 + cụm_3 + cluster_4 +
cluster_0 = 1426).
2376 ISSN: 2088-8708
3.3. Hoạt động hóa các biến

3.3.1. Dự báo (biến độc lập)
Một phần chính của các nghiên cứu hiện có liên quan đến dự đoán về tình hình churn của khách hàng tập
trung vào việc kết hợp hai nhóm thông tin: thông tin về hành vi và nhân khẩu học của khách hàng. Theo một số
nghiên cứu như Coussement và Van den Poel [52], Guadagni và Little [53]; Rossi và cộng sự, [54], và Tamaddoni
Jahromi và cộng sự, [7] dữ liệu nhân khẩu học (tức là giới tính, tuổi, địa chỉ, nghề nghiệp, v.v.) có ít hơn
tác động đến dự đoán churn. Đối với điều này, nghiên cứu của chúng tôi sẽ chỉ dựa trên thông tin hành vi ở cấp
độ của khách hàng cá nhân (các biến độc lập), điều này sẽ cho phép chúng tôi giữ cho các mô hình ở dạng đơn
giản nhất và mặt khác, để tối đa hóa khả năng dự đoán của chúng.
So với các phương thức giao dịch truyền thống, ưu điểm lớn nhất của thương mại điện tử là tất cả dữ
liệu điều hướng của tất cả các lượt truy cập của khách hàng trên trang thương mại điện tử đều được lưu trữ
trong máy chủ. Từ thông tin hành vi và giao dịch này ở cấp độ của khách hàng cá nhân (trang đã xem, trình tự
lượt truy cập, quy trình mua hàng, số lượng giao dịch, v.v.) và ngoài các biến RFM, nhiều chỉ số
có thể được trích xuất [55], và được sử dụng làm biến dự báo bằng các mô hình của chúng tôi để cải thiện sức
mạnh phân biệt của họ giữa khách hàng hoàn toàn không hoạt động và những người khiếm khuyết một phần và những
người vẫn trung thành. .
Bảng 6 tóm tắt tất cả các biến độc lập về hành vi được hỗ trợ bởi nghiên cứu trước đây trong cả môi
trường ngoại tuyến và trực tuyến. Các biến số lần truy cập gần đây, tần suất và tiền tệ là những biến số phổ biến
hơn trong việc dự đoán sự rời đi của khách hàng trong môi trường trực tuyến. Các biến mô tả tỷ lệ bỏ cuộc ở mỗi
bước của quá trình mua hàng, độ dài của mối quan hệ (L), thời gian mua hàng trung bình (ITP) và phương thức thanh
toán (Mopayment) là những biến số ít được sử dụng trong nghiên cứu trước đây. Do đó, để đánh giá tầm quan trọng
của chúng trong việc dự đoán thời gian nghỉ của khách hàng, chúng tôi sẽ tính đến chúng.
Bảng 5. Các biến dự báo
Loại biến Tên biến Sự mô tả
Số ngày giữa ngày đầu tiên của giai đoạn nghiên cứu và ngày mua cuối cùng
Lần truy cập gần đây
R
trong giai đoạn hiệu chuẩn (0 <= R <= T1).
Tính thường xuyên Số lượng mua hàng quan sát trong thời gian hiệu chuẩn (T1).
F R_change.F Sự thay đổi tương đối về số lượng mua trong nửa sau của chu kỳ hiệu chuẩn
F.T1.2 khi so sánh với nửa đầu của chu kỳ hiệu chuẩn F.T1.1, tức là
R_change.F = (F.T1.2 - F.T1.1) / FT11
Tiền tệ M Tổng số tiền mua hàng trong giai đoạn hiệu chuẩn (T1).
Độ dài L Số ngày từ lần mua đầu tiên đến lần mua cuối cùng.
của mối quan hệ
Thời gian mua hàng lẫn nhau ITP Số ngày trung bình giữa các lần mua.
R_change.ITP Thay đổi tương đối về thời gian mua lẫn nhau trong nửa sau của chu kỳ
hiệu chuẩn ITP.T1.2 khi so sánh với nửa đầu của chu kỳ hiệu chuẩn
ITP.T1.1, tức là R_change.ITP = (ITP.T1.2 - ITP.T1. 1) /ITP.T.11
Phương thức thanh toán Mopayment Cho biết phương thức thanh toán được sử dụng nhiều nhất trong ba giao dịch gần đây nhất.
Tỷ lệ bỏ học Last_session_abandoned Cho biết liệu phiên cuối cùng có bị bỏ qua ở bước thanh toán hay không (có, không).
drop_rate (tất cả các Phần trăm số phiên đã bỏ qua quá trình mua ở bước "Lượt xem sản phẩm"
lần xem sản phẩm) T1.2 trong nửa sau của giai đoạn hiệu chuẩn T1.2.
drop_rate (lượt xem sản phẩm Tỷ lệ bỏ qua đối với khách hàng khi chuyển từ bước "Lượt xem sản phẩm" sang
đến addcart) T1.2 bước "Thêm vào giỏ hàng" trong nửa sau của giai đoạn hiệu chuẩn T1.2.
drop_rate (addcart to Tỷ lệ bỏ qua cho một khách hàng khi chuyển từ bước "Thêm vào giỏ hàng" sang
checkout) T1.2 Bước "Kiểm tra" trong nửa sau của chu kỳ hiệu chuẩn T1.2.
Bỏ_tặng (thanh toán Tỷ lệ bỏ qua đối với khách hàng khi chuyển từ bước Trả phòng sang
cho giao dịch) T1.2 bước Giao dịch trong nửa sau của giai đoạn hiệu chuẩn T1.2.
bỏ_tặng (chuyển toàn bộ Phần trăm phiên đã bỏ qua quy trình mua ở bước Thanh toán trong giai đoạn
đến giao dịch) T1.2 T1.2.
Bảng 6. Các yếu tố dự báo hành vi của việc đào tẩu và loại biến mục tiêu trong nghiên cứu trước
Biến dự báo Biến mục tiêu
LRFM IPT Chế độ sản phẩm của loại biến
Bỏ học thất bại
Thể loại thanh toán ăn
Môi Buckinx và van XXXXX XX Nhị phân (Churner, Non
den
trường ngoại tuyến Poel (2005) churner)
ent [6]
VL Miguéis, và XXXX Binary (Có khuấy
cộng sự (2012) [10] một phần, Không
khuấy)
Mozer, et XXXX X X Nhị phân (Churner, Non
al. (2000) [16] churner)
Biến dự đoán Biến mục tiêu

LRFM IPT Danh Chế độ của Bỏ học thất bại Loại biến
mục sản phẩm thanh toán ăn
Môi Keaveney và XX Nhị phân (bộ chuyển
trường trực tuyếnParthasarathy đổi, bộ liên tục)
ent (2001) [56]
K. Coussement XXXXX Nhị phân (Churner, Non
và, KW De churner)
Bock (2013) [57]
AT Jahromi và cộng XXX Nhị phân (Churner, Non
sự. (2014) [7] churner)
Ssu-Han Chen X X Nhị phân (Churner, Non
(2016) [23] churner)
N. Gordini và V. XXXX X X Nhị phân (Churner, Non
Vegliob (2017) churner)
[9]
Nghiên cứu này XXXXX X X Đa lớp (Có khuấy một phần,
Hoàn toàn khuấy,
Không khuấy)
3.3.2. Biến mục tiêu (biến phụ thuộc)

Biến mục tiêu trong nghiên cứu hiện tại là “trạng thái”, một biến phân loại có ba giá trị: Có xáo trộn
một phần, Hoàn toàn bị xáo trộn và Không bị xáo trộn, và được dự đoán dựa trên lịch sử sự kiện của khách hàng
trên trang web thương mại điện tử.
3.4. Các thước đo hiệu suất
Bảng 6 cho thấy rằng tất cả các nghiên cứu churn hiện có đều tập trung vào các mô hình phân loại nhị phân.
Nghiên cứu này đóng góp vào tài liệu bằng cách không tập trung vào các mô hình phân loại nhị phân trong đó mô hình dự
đoán trạng thái của khách hàng là churner hay không churner. Tuy nhiên, nghiên cứu của chúng tôi sẽ giải quyết trường hợp
các vấn đề về Phân loại nhiều lớp trong đó biến phụ thuộc phân loại một khách hàng cụ thể là một khách hàng tiếp tục mô
hình mua hàng trung thành của mình (Không khuấy đảo) hoặc là một người đào tẩu một phần (Một phần) hoặc là một tổng số
người đào ngũ (Hoàn toàn bị khuấy động).
Đối với các bài toán phân loại nhiều lớp, các thước đo Trung bình vi mô và Trung bình vĩ mô thường
được sử dụng để đánh giá hoạt động. Tuy nhiên, tính trung bình của Micro không cung cấp một thước đo chính xác
về hiệu suất khi các cá thể không được phân bổ đồng đều trên các lớp (hầu hết các trường hợp thuộc về một lớp).
Không giống như lấy trung bình vi mô, trung bình Macro cung cấp phép đo hiệu suất có ý nghĩa mặc dù dữ liệu
không đại diện như nhau cho tất cả các lớp (các lớp không cân bằng) [58]. Do đó, trung bình Macro được sử dụng
như một thước đo để đánh giá hiệu suất của mô hình nhiều lớp trong nghiên cứu này.
Bảng 7 đưa ra một ma trận nhầm lẫn kết quả điển hình (là một bảng hiển thị từng lớp trong tập kiểm tra
và số lượng dự đoán đúng và dự đoán sai) cho một bài toán có ba lớp, trong đó Nij
đại diện cho số lượng cá thể có lớp i thực tế được dự đoán là lớp j. (i = 1, 2, 3, j = 1, 2, 3).
Bảng 7. Ma trận nhầm lẫn kết quả điển hình

Dự đoán
Classi Classj Classk
ii ik
Classi N N ij N
Thật sự Classj N ji N jj N jk
ki kk
Classk N N kj N
Bảng 8 trình bày các thước đo thường được sử dụng nhất để phân loại nhiều lớp dựa trên các giá trị của
ma trận nhầm lẫn.
Bên cạnh đó, chúng tôi xem xét xác thực chéo 10 lần, trong đó dữ liệu ban đầu được chia ngẫu nhiên
thành 10 phần bằng nhau, 9 phần được sử dụng làm dữ liệu đào tạo để xây dựng mô hình dự đoán, trong khi một
phần còn lại được dành làm tập kiểm tra. Do đó, mỗi bộ phận sẽ được đào tạo và kiểm tra mười lần và do đó có
thể đạt được tỷ lệ chính xác trung bình.
2378 ISSN: 2088-8708
Bảng 8. Các thước đo để phân loại nhiều lớp được sử dụng trong nghiên cứu này dựa trên TPi : các trường hợp của Classi được
dự đoán đúng, TNi : các trường hợp của Lớp khác (j , k) được dự đoán đúng, FPi : các trường hợp của Lớp khác (j , k) được
dự đoán là thể hiện của classi và FNi : thể hiện của Classi không chính xác. M indice biểu thị trung bình macro [59]
Đo lường Công thức Sự mô tả
Độ chính xác trung bình Hiệu quả trung bình trên mỗi lớp của bộ phân loại
Tỷ lệ lỗi Lỗi phân loại trung bình trên mỗi lớp
PrecisionM Thỏa thuận trung bình trên mỗi lớp của các nhãn lớp dữ liệu
với các nhãn của bộ phân loại
Nhớ lạiM Hiệu quả trung bình trên mỗi lớp của bộ phân loại để
xác định các nhãn lớp
F-1M Mối quan hệ giữa các nhãn tích cực của dữ liệu và các nhãn được cung
,
( ) cấp bởi bộ phân loại dựa trên mức trung bình của mỗi lớp
avec
4. KẾT QUẢ VÀ THẢO LUẬN
Tỷ lệ thực tế của hỗn hợp một phần, hoàn toàn khuấy và không khuấy trong tập dữ liệu lần lượt là
17,81%, 25,45% và 56,73%. Để đánh giá chất lượng của các dự đoán của các mô hình dự đoán churn bao gồm cây
quyết định, mạng nơron nhân tạo và cụm cây quyết định, các phép đo trung bình vĩ mô và phương pháp xác
nhận chéo 10 lần được xem xét.
Bảng 9. Dự đoán hiệu suất của ba mô hình với xác nhận chéo 10 lần
DT ANN DTE
gấp 1 93,71 90,21 93,71
lần 2 95,10 95,10 98,60
lần 3 95,80 97,20 98,60
lần 4 93,01 90,91 95,10
lần 4 92,31 91,61 95,10
lần 5 96,50 97,90 99,30
lần 6 96,48 93,66 97,18
lần 7 95,07 92,25 97,18
lần 8 92,25 93,66 97,18
lần 9 lần 10 95,07 92,25 96,48
Trung bình
94,53 93,48 96,84
Bảng 9 cho thấy hiệu suất dự đoán của ba mô hình dựa trên xác nhận chéo 10 lần. Trung bình, các
mô hình dự đoán cung cấp độ chính xác cao hơn 93%. Khi so sánh các kỹ thuật phân loại khác nhau, Hệ thống
cây quyết định cung cấp kết quả tốt nhất về độ chính xác trong tất cả các lần thử nghiệm. Độ chính xác đôi
khi khá sai lầm để xác nhận chất lượng dự đoán [60]. Đối với điều này, cần phải có các biện pháp bổ sung
về hiệu suất của mô hình như Nhớ lại và Độ chính xác để xác định mô hình dự đoán churn hoạt động tốt hơn.
Do đó, dựa trên bảng ma trận nhầm lẫn, chúng tôi tính toán Recalli ,
Giá trị Precisioni và F-1i cho mỗi lớp để đánh giá hiệu suất đối với mỗi trong ba lớp trong tập dữ liệu
của chúng tôi. Kết quả chi tiết được trình bày trong Bảng 10, Bảng 11 và Bảng 12.
Bảng 10, Bảng 11 và Bảng 12 tóm tắt độ chính xác tổng thể, độ thu hồi, độ chụm và các giá trị F-1
cho mỗi lớp trong số ba lớp cho ba kỹ thuật phân loại với xác nhận chéo 10 lần.
Bảng 10. Độ chính xác tổng thể, giá trị Nhớ lại, Độ chính xác và F-1 cho mỗi trong số ba lớp cho bộ
phân loại ANN với xác nhận chéo 10 lần
ANN Độ chính xác tổng TP. FP TN FN Nhớ lại 1143 1036 580 Độ chính F-1
Bị xáo trộn một phần thể 93,48% 192 29 350 62 0,756 xác 0,808
Hoàn toàn xáo trộn 27 791 37 13 0,964 0,869 0,946

Không khuấy trộn 18 0,978 0,928 0,955 0,966
Bảng 11. Độ chính xác tổng thể, giá trị Nhớ lại, Độ chính xác và F-1 cho mỗi trong số ba lớp cho bộ phân
loại DT với xác nhận chéo 10 lần
DT Độ chính xác tổng 0,858 346FP13TN1050
FN Nhớ
0,953
lại784
TP 23
218594
42 0,969
1130 Độ chính F-1
Bị xáo trộn một phần thể 94,53% 36 xác 0,848
Hoàn toàn xáo trộn 17 0,838 0,958

Không khuấy trộn 25 0,964 0,971 0,97
Bảng 12. Độ chính xác tổng thể, giá trị Nhớ lại, Độ chính xác và F-1 cho từng loại trong ba lớp cho bộ phân
loại DTE với xác nhận chéo 10 lần
DTE Độ chính xác tổng TP FP TN FN Nhớ lại 1163 1049 595 Độ chính F-1
Bị xáo trộn một phần thể 96,84% 218 9 36 0,858 xác 0,906
Hoàn toàn xáo trộn 357 14 806 6 0,983 0,960 0,973

Không khuấy trộn 22 3 0,996 0,962 0,973 0,985
Bảng 13. Các thước đo trung bình vĩ mô cho ba bộ phân loại

Nhớ lại độ chính xác trung bìnhM PrecisionM F-1M
Mạng thần kinh nhân tạo (ANN) 0,957 0,899 0,917 0,907
Cây quyết định đơn giản (DT) 0,964 0,927 0,924 0,925
Tập hợp cây quyết định (DTE) 0,979 0,946 0,965 0,955
Kết quả hiển thị trong Bảng 10, Bảng 11 và Bảng 12 chỉ ra rằng đối với ba lớp cơ sở dữ liệu của chúng
tôi, mô hình DTE cung cấp kết quả tốt hơn về độ chính xác, độ thu hồi và F-1.
Hơn nữa, như đã nêu trong Bảng 13, DTE cho thấy hiệu suất dự đoán tốt hơn các mô hình khác về các phép
đo trung bình vĩ mô. So với DT và ANN lần lượt là + 1,90, + 4,63 điểm về Nhớ lạiM, trong khi sự cải thiện ở
PrecisionM lần lượt là + 4,06, + 4,76 và + 2,93, + 4,80 tương ứng về F-1M. Dựa trên những kết quả này, chúng tôi
kết luận rằng mô hình DTE hoạt động tốt nhất trong việc xác định những khách hàng có khiếm khuyết hoàn toàn, khiếm
khuyết một phần và những khách hàng vẫn trung thành. Do đó, chúng tôi có thể theo dõi cả việc đào tẩu một phần và
toàn bộ trái ngược với nghiên cứu trước đây tập trung vào khuyết tật toàn bộ hoặc một phần. Sự đóng góp này là
quan trọng do một số lý do. Đầu tiên, vì chúng ta xem xét hai loại đào tẩu (một phần và toàn bộ), mức độ rủi ro
liên quan đến đào tẩu từng phần khác với mức độ rủi ro liên quan đến đào tẩu toàn bộ. Do đó, do chi phí liên quan
đến các chiến lược duy trì, không nên tập trung các nỗ lực quản lý hỗn hợp theo cùng một cách cho cả hai [61]. Nói
cách khác, một khách hàng được mô hình dự đoán là khách hàng có khả năng (một phần) sẽ nghỉ việc trong tương lai,
không nên được nhắm mục tiêu bởi cùng một chương trình khuyến khích dành riêng cho những người được dự đoán có khả
năng rời khỏi công ty chắc chắn trong tương lai và ngược lại. Điều này sẽ giúp các nhà quản lý thực hiện các tương
tác phù hợp vào đúng thời điểm để giữ chân những khách hàng này mà không lãng phí nguồn lực. Thứ hai, khả năng kiểm
tra xem tổng churn luôn đi trước tiêu hao một phần hay có những trường hợp khách hàng dứt khoát bỏ đi mà không để
lại dấu hiệu không hài lòng. Điều này sẽ cho phép các công ty suy nghĩ về các giải pháp cho những tình huống như
vậy.
Cuối cùng, chúng tôi xem xét những yếu tố dự đoán nào đóng góp nhiều hơn vào việc dự đoán một phần và
toàn bộ số lượng khách hàng đào tẩu bằng cách sử dụng ba mô hình. Đối với điều này, chúng tôi tạo quy trình làm
việc knime cho phép tính mức độ quan trọng của biến, ý tưởng cơ bản là: để tính mức độ quan trọng của biến k, chúng
tôi loại trừ nó ra để dự đoán. Nếu độ chính xác dự đoán của mô hình giảm xuống do không có biến này, điều này cho
thấy biến sau là quan trọng trong quá trình dự đoán. Quy trình tương tự được sử dụng cho tất cả các biến và cuối
cùng, biến mức độ quan trọng cho mỗi dự báo được chuẩn hóa từ 0 đến 1 để có được chỉ báo mức độ quan trọng của mỗi
biến. Kết quả được trình bày trong Bảng 14. Do đó, kiến thức về các yếu tố dự đoán tình trạng hỗn loạn quan trọng
nhất trong lĩnh vực thương mại điện tử sẽ được giám đốc tiếp thị quan tâm đặc biệt vì chúng cung cấp thông tin hữu
ích để nhắm mục tiêu đến những khách hàng có nhiều khả năng rời đi trong thời gian tới. trong tương lai với các
biện pháp khuyến khích phù hợp để giảm thiểu nguy cơ xáo trộn [9].
Bảng 14 cho thấy tầm quan trọng của từng dự báo đối với các mô hình DT, ANN và DTE, trong đó cột đầu tiên
cho biết mức độ quan trọng, cột thứ hai cho biết tên của biến và cột cuối cùng hiển thị tầm quan trọng chuẩn hóa
của một biến dựa trên độ chính xác của mô hình mà không có nó.
Bảng 14. Tầm quan trọng của các biến

Tập hợp cây quyết định Cây quyết định Mạng lưới thần kinh nhân tạo
Hạng 1 Biến NormImp Biến NormImp Biến NormImp
bỏ_tổng_thể (giao dịch bỏ_tổng_thể (giao dịch bỏ_tổng_thể (giao dịch

1.000 1.000 1.000
thanh toán) T1.2 thanh toán) T1.2 thanh toán) T1.2
2 bỏ_tổng (productviews- 0,562 bỏ_tổng (productviews- 0,287 bỏ_tổng (productviews- 0,652
addcart) T1.2 addcart) T1.2 addcart) T1.2
2380 ISSN: 2088-8708
Tập hợp cây quyết định Cây quyết định Mạng lưới thần kinh nhân tạo
Hạng Tỷ lệ bỏ_tại NormImp Biến NormImp Biến NormImp

3 biến (giao dịch bỏ_tổng_thể (thanh bỏ_tổng_thể
0,210 0,181 0,277
allv) T1.2 Bỏ_tặng toán thêm cửa (giao dịch allv)
4 (kiểm tra addcart) hàng) T1.2.
0,181 0,070 0,241
T1.2 Tỷ lệ bỏ_tại
(allv 0,038 0,064 0,143
5 6 productviews) T1.2
0,038 Last_session_abandoned 0,058 R 0,098
7 từ bỏ_tỷ lệ
ITP 0,029 0,053 R_change.F 0,089
(giao dịch allv)
R_change.ITP FM 0,029 T1.2 L 0,053 ITP 0,071
0,019 ITP 0,053 R_change.ITP F 0,071
8 0,010 R_change.F 0,053 drop_rate 0,071
9 10 11 (allv
Phương thức thanh toán 0,010 M 0,047 0,063
productviews) T1.2
12 Last_session_abandoned R 0,010 0,035 M Phương 0,027
13 R_change.F 0,010 F Phương thức thanh 0,029 thức thanh toán 0,027
14 0,000 toán R_change.ITP 0,000 Last_session_abandoned 0,000
Rõ ràng là từ xếp hạng về mức độ quan trọng biến đổi, các biến mô tả tỷ lệ bỏ cuộc trong các bước
của quy trình mua hàng như: từ bỏ_tặng (thanh toán-giao dịch) T1.2, bỏ_ bỏ (productviews-addcart) T1.2
và drop_rate (addcart-checkout) T1.2 thực sự là những yếu tố dự đoán mạnh mẽ về sự gián đoạn một phần và
toàn bộ trong lĩnh vực thương mại điện tử. bốn trong số mười biến hàng đầu của tất cả các mô hình và dường
như hoạt động tốt hơn các biến khác. Sự khác biệt chính giữa mô hình DTE và các mô hình khác, rõ ràng nhất
là liên quan đến biến mô tả mức độ gần đây của lần mua hàng cuối cùng (R) xuất hiện ở cuối bảng xếp hạng
cho DTE và khá quan trọng trong hai mô hình còn lại. khi so sánh kết quả của nghiên cứu với nghiên cứu gần
đây liên quan đến dự đoán về thời gian gián đoạn trong môi trường trực tuyến AT Jahromi và cộng sự [7], N.
Gordini và V. Vegliob [9] và K. Coussement và KW De Bock [57], một mặt cho rằng xét về tầm quan trọng của
các biến được sử dụng trong giai đoạn học, các biến gần đây và tần suất dường như ít quan trọng hơn đối
với dự đoán khuấy động. Điều này hoàn toàn trái ngược với những kỳ vọng mà chúng tôi đã hình thành từ
nghiên cứu hiện có, trong đó nhấn mạnh mạnh mẽ đến khả năng dự đoán của các biến RF của các mô hình RFM.
Kết quả này chủ yếu xảy ra vì khách hàng tham gia vào các mô hình dự đoán là những khách hàng đại diện
cho khách hàng cốt lõi và khách hàng có giá trị cao mới, chính xác hơn là khách hàng thuộc các nhóm ,
, và Xem xét Bảng 4, người ta nhận thấy rằng các giá trị F và R trung bình của bốn cụm
này gần như gần nhau. Ngoài ra, thống kê mô tả được trình bày trong Bảng 3 chỉ ra rằng độ lệch chuẩn của F và
R là thấp, có nghĩa là giá trị của hai biến này ít bị phân tán xung quanh giá trị trung bình. Do đó, điều này
làm cho sự đóng góp của họ ít quan trọng hơn trong việc phân biệt giữa khách hàng là người đào tẩu hoàn toàn,
người đào tẩu một phần và khách hàng trung thành.
Một lời giải thích khác có thể nằm ở thực tế là các nghiên cứu này đã không khai thác hết lượng
lớn dữ liệu được tạo ra bởi môi trường trực tuyến, nhưng chúng vẫn bị giới hạn ở các biến đặc trưng cho
môi trường ngoại tuyến như số lần truy cập gần đây, tần suất và tiền tệ. Thật vậy, từ các sự kiện do khách
hàng thực hiện trên trang web người bán, chúng tôi có thể dễ dàng trích xuất nhiều biến dự đoán có sức
mạnh giải thích trong việc hiểu hành vi của khách hàng và trong phân tích trải nghiệm mua hàng của họ,
bắt đầu bằng tư vấn sản phẩm và kết thúc bằng xác thực của giao dịch. Ví dụ: chúng tôi có thể truy xuất
các biến mô tả cho từng khách hàng tỷ lệ bỏ phiên ở các giai đoạn khác nhau của quá trình mua.
5. KẾT LUẬN
Để giải quyết vấn đề quan trọng của định nghĩa churn trong cài đặt phi hợp đồng (thương mại điện
tử), mô hình LRFM và kỹ thuật phân nhóm (k-means) được kết hợp trong giai đoạn đầu tiên để xác định các
loại hồ sơ khách hàng khác nhau (các mẫu LRFM khác nhau) dựa trên giai đoạn phụ đầu tiên (T1). Do đó,
chúng tôi tìm thấy bảy nhóm khách hàng có hành vi LRFM khác nhau ( , , , , ,
, ) và sau đó chúng tôi xác định sự thay đổi mẫu LRFM của khách hàng theo thời gian như một tín hiệu
sớm của việc đào tẩu một phần hoặc toàn bộ. Theo chúng tôi, phương pháp luận được đề xuất cho định nghĩa churn có
thể là một công cụ quyết định hữu ích cho các công ty hoạt động trong môi trường phi hợp đồng, nơi khách hàng và
công ty không có bất kỳ hợp đồng nào giữa họ. Sau khi giải quyết vấn đề về định nghĩa churn, chúng tôi đã đề xuất ba
các mô hình dự đoán (Mạng thần kinh nhân tạo, Cây quyết định đơn giản và Cây quyết định tổng hợp) cho sự thay đổi một
phần / toàn bộ khách hàng trong lĩnh vực thương mại điện tử.
Để kiểm tra các mô hình được đề xuất trong bối cảnh thực tế, chúng tôi đã sử dụng làm nghiên cứu một cửa hàng trực tuyến,
nơi ghi lại hành vi của luồng nhấp chuột của khách hàng trong khoảng thời gian từ ngày 1 tháng 11 năm 2013 đến ngày 28 tháng 2 năm 2015
đã được sử dụng. Các kết quả được báo cáo tiết lộ rằng ba mô hình được đề xuất có thể cung cấp dự đoán ở cấp độ cá nhân
về xác suất đào tẩu một phần hoặc toàn bộ trong tương lai, cho phép chúng tôi theo dõi cả những người đào tẩu một phần
và toàn bộ. Một phân tích so sánh của các mô hình khác nhau cũng được trình bày, kết quả của phân tích so sánh này cho
thấy tác động có lợi của Cây quyết định Ensemble so với các mô hình khác (cây quyết định đơn giản và mạng nơron nhân
tạo) về chất lượng dự đoán.
Dự đoán này rất hữu ích cho các nhà quản lý tiếp thị vì sẽ giúp họ rất nhiều trong việc thực hiện các giải
pháp khuyến khích phù hợp mới (hành động duy trì) theo mức độ đào tẩu (Một phần hoặc toàn bộ) để thuyết phục họ ở lại.
Cuối cùng, các biến có thể đóng góp nhiều hơn vào việc dự đoán một phần và tổng số khách hàng
đào tẩu trong lĩnh vực thương mại điện tử đã được xác định.
Các phát hiện của chúng tôi cũng chỉ ra một số hạn chế và các vấn đề cần nghiên cứu thêm.
Thứ nhất, nghiên cứu này chỉ giới hạn trong lĩnh vực thương mại điện tử và rất khó để áp dụng nó trong thế giới ngoại tuyến,
bởi vì nó dựa trên phân tích hành vi duyệt Web (lượt xem trang, chuỗi lượt truy cập, quá trình mua, tỷ lệ bỏ phiên ở
mỗi giai đoạn của quá trình mua).
Thứ hai, chúng tôi chỉ sử dụng một số biến trong giai đoạn phân cụm. Tuy nhiên, các nghiên cứu sâu hơn có thể
sử dụng các biến bổ sung như các biến liên quan đến danh mục sản phẩm.
Cuối cùng, khả năng dự đoán của mô hình bị ảnh hưởng đáng kể bởi việc lựa chọn kỹ thuật phân loại. Tuy nhiên,
trong tương lai các kỹ thuật phân loại khác, chẳng hạn như thuật toán di truyền, cây Bayes ngây thơ (NBTree), phương
pháp tiếp cận tập hợp thô và logic mờ, sẽ được sử dụng.
NGƯỜI GIỚI THIỆU
[1] Trung tâm ngân hàng điện tử liên ngân hàng, Maroc, “Học kỳ 1 năm 2017 của Activité monétique ”, [https://www.cmi.co.ma/]
[2] Hongsheng Xu, et al., “Xây dựng Hệ thống Khuyến nghị Thương mại Điện tử dựa trên Chú giải Ngữ nghĩa của Bản thể học và Sở thích Người
dùng”, TELKOMNIKA (Phát triển Viễn thông, Điện tử và Điều khiển), vol. 12, không. 3, trang 2028-2035, 2014.
[3] Neslin, SA, Gupta, S., Kamakura, W., Lu, J., & Mason, C, “Phát hiện đào tẩu: cải thiện độ chính xác dự đoán của các mô hình churn của
khách hàng”, Tài liệu làm việc, Trung tâm Teradata tại Đại học Duke, 2004 .
[4] Burez, J., và Van den Poel, D., “Crm tại một công ty truyền hình trả tiền: Sử dụng các mô hình phân tích để giảm mức độ tiêu hao của
khách hàng bằng cách tiếp thị có mục tiêu cho các dịch vụ đăng ký”, Expert Systems with Applications, vol. 32, trang 277-288, 2007.
[5] Y. Catherine, “AOL: Scrambling to Halt the Exodus,” Business Week, 62, ngày 4 tháng 8 năm 2003.
[6] Buckinx, W. và Van den Poel, D., “Phân tích cơ sở khách hàng: sự đào tẩu một phần của những khách hàng trung thành về mặt hành vi trong
môi trường bán lẻ FMCG không theo hợp đồng”, Tạp chí Nghiên cứu Hoạt động Châu Âu, vol. 164, không. 1, trang 252-268, 2005.
[7] AT Jahromi và cộng sự, “Quản lý tỷ lệ khách hàng B2B, khả năng duy trì và lợi nhuận”, Tiếp thị công nghiệp
Quản lý, vol. 43, không. 7, trang 1258-1268, tháng 10 năm 2014
[8] Özden Gür Ali, Umut Arıtürk, “Khung dự đoán chu kỳ động với việc sử dụng hiệu quả hơn dữ liệu sự kiện hiếm: Trường hợp ngân hàng tư
nhân”, Hệ thống chuyên gia với ứng dụng, tập. 41, không. 17, trang 7889-7903, 2014.
[9] N. Gordini và V. Veglio, “Khách hàng đưa ra các chiến lược duy trì hoạt động tiếp thị và dự đoán. Một ứng dụng của máy vectơ hỗ trợ dựa
trên kỹ thuật lựa chọn tham số AUC trong ngành thương mại điện tử B2B ”, Quản trị Tiếp thị Công nghiệp, vol. 62, trang 100-107, tháng
4 năm 2017.
[10] VL Miguéis, et al., “Mô hình hóa sự khuấy động từng phần của khách hàng: Về giá trị của chuỗi mua hàng loại sản phẩm đầu tiên”, Expert
Systems with Applications, vol. 39, không. 12 và 15, trang 11250-11256, tháng 9 năm 2012.
[11] M. Clemente-Císcar, et al., “Một phương pháp dựa trên tiêu chí lợi nhuận để xác định việc khách hàng bỏ trốn một phần trong các môi
trường phi hợp đồng”, Tạp chí Nghiên cứu Hoạt động Châu Âu, tập. 239, không. 1, 16 tháng 11 năm 2014.
[12] Jae-Hyeon Ahna, Sang-Pil Hana, Yung-Seop Lee., “Phân tích tình trạng hỗn loạn của khách hàng: Các yếu tố quyết định Churn và tác động
hòa giải của việc đào tẩu một phần trong ngành dịch vụ viễn thông di động Hàn Quốc”, Chính sách Viễn thông, vol. 30, không. 10 và 11,
trang 552-568, 2006.
[13] R. Ait daoud, et al., “Mô hình phân khúc khách hàng trong thương mại điện tử sử dụng kỹ thuật kết hợp và mô hình LRFM: Cửa hàng trực
tuyến Caseof ở Ma-rốc”, World Academy of Science, Engineering and Technology International Journal of Computer, Electrical,
Automation , Kỹ thuật Điều khiển và Thông tin, quyển 9, không. 8 năm 2015.
[14] Shin-Yuan Hung, et al., “Áp dụng khai thác dữ liệu để quản lý gián đoạn viễn thông”, Hệ thống chuyên gia với ứng dụng,
vol. 31, trang 515-524, 2006.
[15] MAH Farquad, Vadlamani Ravi, S. Bapi Raju, “Dự đoán Churn sử dụng máy vectơ hỗ trợ dễ hiểu:
Một ứng dụng CRM phân tích ”, Applied Soft Computing, vol. 19, trang 31-40, 2014
2382 ISSN: 2088-8708
[16] Mozer, et al., “Dự đoán sự không hài lòng của người đăng ký và cải thiện tỷ lệ giữ chân trong ngành viễn thông không dây”, Giao dịch IEEE trên
Mạng thần kinh, vol. 11, không. 3, trang 690-696, 2000.
[17] Xiaobing Yu, et al., “Một khung dự báo máy vectơ hỗ trợ mở rộng dành cho khách hàng churn trong e
thương mại ”, Hệ thống chuyên gia với các ứng dụng, tập. 38, trang 1425-1430, 2011.
[18] Reinartz W1, Kumar V, “Sự quản lý yếu kém đối với lòng trung thành của khách hàng”, Harv Bus Rev, vol. 80, không. 7, 125, trang 86-94,
Năm 2002.
[19] Xie, et al., “Dự đoán khách hàng churn bằng cách sử dụng các khu rừng ngẫu nhiên cân bằng được cải thiện”, Hệ thống chuyên gia với các ứng
dụng, tập. 36, không. 3, tr.5445-5449, 2009.
[20] Bingquan, et al., “Dự đoán về sự biến động của khách hàng trong viễn thông”, Hệ thống chuyên gia với các ứng dụng, tập. 39,
không. 1, trang 1414-1425, tháng 1 năm 2012.
[21] Faris, H., “Các quy tắc dọn dẹp khu vực lân cận và tối ưu hóa bầy đàn để dự đoán hành vi bỏ trốn của khách hàng trong
ngành viễn thông ”. Int. J. Adv. Khoa học. Technol., Tập. 68, tr. 11-22, 2014.
[22] K. Kyoungok, et al., “Chi-Hyuk Jun, Jaewook Lee, Cải thiện dự đoán churn trong ngành viễn thông bởi
phân tích một mạng lớn ”, Expert Systems with Applications, vol. 41, không. 15, 2014, trang 6575-6584, 2014.
[23] Ssu-Han Chen, “Phương pháp biểu đồ gamma CUSUM để dự đoán tình trạng bỏ trốn của khách hàng trực tuyến”, Electronic Commerce
Nghiên cứu và Ứng dụng, vol. 17, trang 99-111, tháng 5 - tháng 6 năm 2016.
[24] Niels Holtrop, Jaap E. Wieringa, Maarten J. Gijsenberg, Peter C. Verhoef, “Không có tương lai nếu không có quá khứ? Dự đoán sự xáo trộn khi
đối mặt với quyền riêng tư của khách hàng ”, International Journal of Research in Marketing, vol. 34, không. 1, trang 154-172, năm 2017.
[25] HH Wu và cộng sự, “Phân tích giá trị của bệnh nhân bằng cách áp dụng phân tích cụm và mô hình LRFM trong phòng khám nha khoa nhi ở Đài Loan”,
Tạp chí Thế giới khoa học của Tập đoàn xuất bản Hindawi, tập. 2014, ID bài viết 685495,
trang 7 năm 2014.
[26] AM Hughes, “Tiếp thị cơ sở dữ liệu chiến lược”, Nhà xuất bản Probus, 1994.
[27] R. Ait daoud, et al., “Kết hợp mô hình RFM và kỹ thuật phân nhóm để phân tích giá trị khách hàng của một công ty bán hàng trực tuyến”. Hội
nghị Quốc tế lần thứ 12 về Hệ thống Máy tính và Ứng dụng (AICCSA) IEEE / ACS, 1-6, 2015.
[28] Jo-Ting Wei, et al., “Quản lý quan hệ khách hàng trong ngành làm tóc: Một ứng dụng của kỹ thuật khai thác dữ liệu”, Expert Systems with
Applications, vol. 40, không. 18, trang 7513-7518, ngày 15 tháng 12 năm 2013.
[29] Der-Chiang Li và cộng sự, “Phương pháp phân nhóm hai giai đoạn để phân tích đặc điểm khách hàng nhằm xây dựng quản lý khách hàng phân biệt:
Một trường hợp kinh doanh sản xuất hàng dệt may”, Expert Systems with Applications, vol. 38, không. 6, trang 7186-7191, tháng 6 năm 2011.
[30] AM Hughes, "Tăng cường phản hồi với RFM". Công cụ Tiếp thị, tập. 3, không. 3, trang 4-7, 1996.
[31] GM Marakas, “Hệ thống hỗ trợ quyết định trong thế kỷ 21”, Ấn bản thứ hai. Prentice Hall, Upper Saddle
River, NJ, 2003.
[32] AX Yang, “Cách phát triển các phương pháp tiếp cận mới để phân đoạn RFM”, Tạp chí Nhắm mục tiêu, Đo lường và Phân tích cho Tiếp thị, vol. 13,
không. 1, trang 50-60, 2004.
[33] SMS Hosseini, et al., “Phân tích cụm sử dụng cách tiếp cận khai thác dữ liệu để phát triển phương pháp CRM nhằm đánh giá lòng trung thành của
khách hàng”, Tạp chí Hệ thống Chuyên gia với Ứng dụng, vol. 37, không. 7, trang 5259-5264, 2010.
[34] IC Yeh và cộng sự, “Khám phá tri thức trên mô hình RFM sử dụng chuỗi Bernoulli”, Hệ thống chuyên gia với ứng dụng, tập. 36, không. 3, trang
5866-5871, 2009.
[35] HC Chang và HP Tsai, “Phân tích RFM nhóm như một khuôn khổ mới để khám phá hành vi tiêu dùng của khách hàng tốt hơn”, Hệ thống chuyên gia với
các ứng dụng, tập. 38, không. 12, tr.14499-14513, 2011.
[36] HH Chang và SF Tsay., “Tích hợp SOM và K-mean trong phân nhóm khai thác dữ liệu: một nghiên cứu thực nghiệm về
CRM và đánh giá lợi nhuận ”, Tạp chí Quản lý Thông tin, tập. 11, không. 4, trang 161-203, 2004.
[37] S. Chow. và R. Holden., “Hướng tới sự hiểu biết về lòng trung thành: Vai trò điều tiết của sự tin tưởng”, Tạp chí Các vấn đề Quản lý, tập. 9,
không. 3, trang 275-298, 1997.
[38] D. Birant, “Khai thác dữ liệu bằng cách sử dụng phân tích RFM, ứng dụng định hướng tri thức trong khai thác dữ liệu”, InTech, ISBN:
978-953-307-154-1, 2011.
[39] Se-Hoon Jung, et al., “Sơ đồ xử lý dữ liệu dự đoán sử dụng mạng nơ ron nhân tạo và phân cụm dữ liệu cho dữ liệu lớn”, International Journal
of Electrical and Computer Engineering, vol. 6, không. 1, trang 330-336, tháng 2 năm 2016.
[40] RJ Kuo, và cộng sự, “Tích hợp bản đồ đặc điểm tự tổ chức và thuật toán K-means để phân khúc thị trường”, Nghiên cứu Máy tính & Hoạt động, tập.
29, không. 11, trang 1475-1493, 2002.
[41] Tan PN, Steinbach M., Kumar V. “Giới thiệu về Khai thác dữ liệu”, Pearson Addison Wesley; Boston, MA, trang 487-556, Hoa Kỳ: 2006.
[42] Jiawei Han và Micheline Kamber, “Khai phá dữ liệu: Khái niệm và kỹ thuật, xuất bản lần thứ 2 ”, Morgan Kaufmann
Nhà xuất bản, ISBN 1-55860-901-6, tháng 3 năm 2006.
[43] Peter J. Rousseeuw, “Hình bóng: Sự trợ giúp đồ họa cho việc giải thích và xác nhận phân tích cụm”, Tạp chí
Toán học tính toán và ứng dụng, tập. 20, trang 53-65, 1987.
[44] SH Ha và SC Park., “Ứng dụng các công cụ khai thác dữ liệu vào kho dữ liệu khách sạn trên Intranet dành cho cơ sở dữ liệu
tiếp thị ”, Hệ thống chuyên gia với các ứng dụng, tập. 15, không. 1, trang 1-31, 1998.
[45] Rumelhart, và cộng sự, “Học các biểu diễn bên trong bằng cách truyền lỗi”, (tập 1). MA: MIT Press Cambridge,
Năm 1986.
[46] YLChen, et al., “Xây dựng cây quyết định đa giá trị và nhiều nhãn”, Hệ thống chuyên gia với ứng dụng, tập. 25, không. 2, trang 199-209, 2003.
[47] Wei, C. -P., & Chiu, I. -T., “Biến chi tiết cuộc gọi viễn thông thành dự đoán churn: Một cách tiếp cận khai thác dữ liệu”.
Hệ thống chuyên gia với các ứng dụng, tập. 23, không. 2, trang 103-112, 2002.
[48] Quinlan, JR, “C4.5: Các chương trình cho học máy”, Morgan Kaufman Publishers, 1993.
[49] Quinlan, JR, “Cải thiện việc sử dụng các thuộc tính liên tục trong c4.5”, Tạp chí Nghiên cứu Trí tuệ Nhân tạo, tập. 4,
trang 77-90, 1996.
[50] Dudoit, và cộng sự, “So sánh các phương pháp phân biệt để phân loại khối u bằng cách sử dụng dữ liệu biểu hiện gen”,
Tạp chí của Hiệp hội Thống kê Hoa Kỳ, tập. 97, không. 457, trang 77-87, 2002.
[51] L. Breiman, “Rừng ngẫu nhiên”, Máy học, tập. 45, không. 1, trang 5-32, 2001.
[52] K. Coussement và D. Van den Poel, “Dự đoán Churn trong các dịch vụ thuê bao: Một ứng dụng của máy vectơ hỗ trợ trong khi so sánh hai kỹ
thuật lựa chọn tham số”, Hệ chuyên gia với các ứng dụng, tập. 34, không. 1, trang 313-327, 2008.
[53] PM Guadagni và JDC Little., “Mô hình Logit của sự lựa chọn thương hiệu được hiệu chỉnh trên dữ liệu máy quét”, Tiếp thị
Khoa học, tập. 2, không. 3, trang 203-238, 1983.
[54] P, Rossi và cộng sự, về giá trị của thông tin lịch sử mua hàng ở houschold trong tiếp thị mục tiêu, Khoa học Tiếp thị, vol. 15, không.
4, trang 321-340, 1996.
[55] Guofang Kuang và Yuanchen Li, "Sử dụng các quy tắc kết hợp mờ để thiết kế hệ thống khuyến nghị được cá nhân hóa cho thương mại điện tử",
TELKOMNIKA (Viễn thông Máy tính, Điện tử và Điều khiển), vol. 12, không. 2, trang 1519-1527, 2014
[56] Keaveney, SM, & Parthasarathy, M. Hành vi chuyển đổi của khách hàng trong các dịch vụ trực tuyến: Một nghiên cứu khám phá về vai trò của
các yếu tố cơ bản, hành vi và nhân khẩu học được lựa chọn. Tạp chí của Viện Hàn lâm Khoa học Marketing, tập. 29, không. 4, trang
374-390, 2001.
[57] K. Coussement và KW De Bock, “Dự đoán về sự biến động của khách hàng trong ngành cờ bạc trực tuyến: Lợi ích
hiệu quả của việc học tập theo nhóm ”, Tạp chí Nghiên cứu Kinh doanh, tập. 66, trang 1629-1636, 2013.
[58] Ligang Zhou, et al., “Một so với một kết hợp phân loại nhiều lớp bằng cách sử dụng tối ưu hóa đồ thị vòng tuần hoàn theo hướng quyết
định để dự đoán tình trạng niêm yết của các công ty”, Information Fusion, vol. 36, trang 80-89, 2017.
[59] M. Sokolova và G. Lapalme., “Phân tích có hệ thống các thước đo hiệu suất cho các nhiệm vụ phân loại”, Xử lý & Quản lý Thông tin, vol.
45, không. 4, trang 427-437, 2009.
[60] A Sturm và Bob L, “Độ chính xác của phân loại là không đủ”, Tạp chí Hệ thống Thông tin Thông minh, tập. 41,
không. 3, tháng 12 năm 2013, trang 371-406, 2013.
[61] J. Hadden, et al., “Quản lý khách hàng có sự hỗ trợ của máy tính: Hiện đại và xu hướng tương lai”, Máy tính
& Nghiên cứu hoạt động, tập. 34, không. 10, trang 2902-2917, 2007.
Xem số liệu thống kê về xuất bản

Clustering Prediction Techniques in Defining and Predicting

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clustering Prediction Techniques in Defining and Predicting

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

DOI: 10.11591 / ijece.v8i4.pp2367-2383

CÔNG TÁC BÀI ĐỌC

Rachid Ait daoud Abdellah Amine

5 CÔNG BỐ 51 CÔNG TÁC 4 CÔNG BỐ 43 CÔNG TÁC

Bouikhalene Belaid Rachid Lbibb Rachid Lbibb

FSTM - Đại học Hassan II de Casablanca

181 CÔNG BỐ 973 CÔNG TÁC 39 CÔNG BỐ 207 CÔNG TÁC

Hiệu quả năng lượng trong tòa nhà Xem dự án

Caractère công nhận Xem dự án

Người dùng đã yêu cầu nâng cao tệp đã tải xuống.

Tạp chí Quốc tế về Kỹ thuật Điện và Máy tính (IJECE)

Các kỹ thuật dự đoán theo cụm trong xác định và dự đoán

Ait Daqud Rachid1 , Amine Abdellah2 , Bouikhalene Belaid3 , Lbibb Rachid4

Thông tin bài viết TRỪU TƯỢNG

Bản quyền © 2018 Viện Khoa học và Kỹ thuật Tiên tiến.

Đồng tác giả:

Ait Daqud Rachid,

Trang chủ tạp chí: http://iaescore.com/journals/index.php/IJECE

2368 ISSN: 2088-8708

2370 ISSN: 2088-8708

2. PHƯƠNG PHÁP NGHIÊN CỨU

2.1. Hồ sơ khách hàng

2.1.1. Mô hình RFM và LRFM

2.1.2. Phương pháp K-mean

Int J Elec & Comp Eng ISSN: 2088-8708 2371

một thời gian dài).

M , L R F M , L R F M , và L R F M . Khách hàng mới bao gồm L R F M , L R F M ,

L R F M và L R F M . Cuối cùng, khách hàng tiêu thụ tài nguyên là L R F M và L R F M .

2.2. Sự xáo trộn một phần và toàn bộ

, thay đổi của khách hàng trong ,các mẫu LRFM

tích cực hiện có của họ có khả năng ở lại.

2372 ISSN: 2088-8708

Điểm giữa quan sát

Khách hàng tiềm năng

A1: Đào tẩu một phần

A2: Tổng số lần đào tẩu

Khách hàng tiềm năng

Những khách hàng mới

B1: Đào tẩu một phần

B2: Tổng số lần đào tẩu

Khách hàng bị mất

Int J Elec & Comp Eng ISSN: 2088-8708 2373

Chọn khách hàng có Chọn khách hàng với

date_session trong T1 date_session trong T2

khách hàng khách hàng

hàng này có được bằng phương tiện k trong T1

Sử dụng số (K) làm tham số đầu vào của K-mean để

phân đoạn tất cả khách hàng thành

(K) cụm theo các giá trị L, R, F và M của chúng

K cụm được xác định và mỗi khách hàng được

chỉ định vào nhóm thích hợp của nó

Đào tẩu một phần Tổng số lần đào tẩu

2.3. Kỹ thuật phân loại

2.3.1. Mạng nơ-ron nhân tạo (ANN)

2.3.2. Cây quyết định đơn giản (DT)

2374 ISSN: 2088-8708

2.3.3. Nhóm cây quyết định (DTE)

3. NGHIÊN CỨU NHÂN VIÊN

Bảng 2. Định nghĩa của Mô hình LRFM

Chiều dài (L) đa bình 192,87

Lần truy cập gần đây (R)

Tần số (F) 8.67 4,99