Professional Documents
Culture Documents
(IJACSA) Tạp chí quốc tế về ứng dụng và khoa học máy tính tiên tiến, Tập. 11, số 7, 2020
Tóm tắt—Giữ chân khách hàng được coi là một trong những mối quan rời khỏi công ty của mình như Bảo hiểm yếu. Hoặc thậm chí là những khó
tâm quan trọng của nhiều công ty và tổ chức tài chính như ngân hàng, khăn trong việc sử dụng sản phẩm và sự chậm trễ trong việc cung cấp
nhà cung cấp dịch vụ viễn thông, dịch vụ đầu tư, bảo hiểm và bán dịch vụ hoặc sản phẩm [4].
lẻ. Các chỉ số và số liệu tiếp thị gần đây cho thấy việc thu hút và
giành được khách hàng hoặc người đăng ký mới tốn kém và khó khăn hơn Ngày nay, các nhà cung cấp dịch vụ viễn thông rất chú trọng đến
nhiều so với việc giữ chân những khách hàng hiện có. Do đó, việc mất việc giữ chân khách hàng hơn là thu hút khách hàng vì chi phí để có
một khách hàng hoặc một người đăng ký sẽ tác động tiêu cực đến sự được một khách hàng mới cao hơn chi phí để giữ chân một khách hàng hiện
tăng trưởng và lợi nhuận của công ty. có. Do đó, các công ty viễn thông nổi tiếng coi cơ sở dữ liệu khách
Trong công việc này, chúng tôi đề xuất mô hình giữ chân khách hàng
hàng hiện tại của họ là tài sản có lợi nhất [3].
dựa trên một trong những công cụ phân loại học máy mạnh mẽ nhất là
XGBoost. Trình phân loại thứ hai được thử nghiệm khi kết hợp với các
phương pháp lấy mẫu quá mức khác nhau để cải thiện hiệu suất của nó Dự đoán tỷ lệ rời bỏ khách hàng là một khái niệm dự đoán và xác
trong tập dữ liệu mất cân bằng đã sử dụng. Kết quả thử nghiệm cho định những khách hàng sắp rời bỏ công ty viễn thông để chuyển sang một
thấy kết quả rất hứa hẹn so với các bộ phân loại nổi tiếng khác. đối thủ cạnh tranh khác [5], [3]. Mô hình dự đoán tỷ lệ rời bỏ hỗ trợ
quản lý tỷ lệ rời bỏ khách hàng hiệu quả. Dự đoán tỷ lệ rời bỏ hỗ trợ
Từ khóa—Giữ chân khách hàng; dự đoán khuấy đảo; lấy mẫu quá mức; việc chuẩn bị các chiến lược bảo quản có mục tiêu nhằm hạn chế tổn thất
XGBoost và nâng cao các quyết định tiếp thị, xây dựng lòng trung thành của
khách hàng và tăng lợi nhuận [6]. Ví dụ: các ưu đãi và ưu đãi cụ thể có
I. GIỚI THIỆU thể được trao cho những phân khúc khách hàng rủi ro nhất. Bộ phận tiếp
thị, có thể lập kế hoạch tặng quà giảm giá cho khách hàng, các chương
Lĩnh vực viễn thông đã phát triển thành một ngành công nghiệp trình khuyến mãi/sự kiện khác, sản phẩm khác của các công ty chị em
chính ở các nước phát triển [1]. Tiến bộ kỹ thuật, cùng với số lượng khác nếu có [7].
nhà khai thác ngày càng tăng, đã làm tăng mức độ cạnh tranh trong lĩnh
vực này. Do đó, các công ty đang làm việc chăm chỉ để tồn tại trong thị
Quản lý rời bỏ được định nghĩa là một khái niệm điều tra quy trình
trường có tính cạnh tranh cao này và đang sử dụng các chiến lược khác
của nhà điều hành cổng nhằm cứu những khách hàng có lợi nhuận [7].
nhau cho mục đích này.
Bất cứ khi nào một công ty nhất định cố gắng xác định những khách hàng
Về mặt này, ba chiến lược chính đã được đề xuất để tạo thêm doanh thu
muốn rời bỏ trước khi họ thực hiện thì điều đó được coi là phương pháp
[2], [1]: (i) thu hút khách hàng mới, (ii) tăng doanh số bán hàng cho
quản lý chủ động rời bỏ. Sau đó, công ty đưa ra các ưu đãi (khuyến mãi)
khách hàng hiện tại và (3) tăng thời gian giữ chân của khách hàng.
đặc biệt cho những khách hàng như vậy để ngăn chặn việc họ rời bỏ.
Những chương trình ưu đãi được coi là đạt được lợi thế rất quan trọng
So sánh hiệu quả của các chiến lược này dựa trên Lợi tức đầu tư (RoI)
là nhận được chi phí thấp hơn. Mặt khác, nếu những dự đoán về tỷ lệ rời
đạt được từ mỗi chiến lược cho thấy chiến lược cuối cùng là chiến lược
bỏ của các phương pháp như vậy là không chính xác thì chúng sẽ bị coi
đáng giá nhất [1]. Điều này cho thấy rằng việc giữ chân một khách hàng
là lãng phí vì các công ty sẽ lãng phí tiền cho những khách hàng không
hiện tại khiến công ty tốn ít tiền hơn nhiều so với việc có được một
rời bỏ. Do đó, để có được thành công lớn của các chương trình khuyến
khách hàng mới. Hơn nữa, việc giữ chân dễ dàng hơn nhiều so với việc
khích khách hàng, cần phải có một mô hình dự đoán tỷ lệ rời bỏ khách
tăng doanh số bán hàng cho khách hàng hiện tại [1]. Để áp dụng thành
hàng chính xác [7], [8].
công chiến lược thứ ba, các công ty cần giảm thiểu khả năng khách hàng
rời bỏ.
Trong hai thập kỷ qua, một số thuật toán học máy đã được đề xuất
Khách hàng rời bỏ có thể được định nghĩa là khách hàng chấm dứt
trong tài liệu để giải quyết vấn đề rối loạn dự đoán. Loại thuật toán
mối quan hệ với nhà cung cấp dịch vụ và chuyển sang đối thủ cạnh tranh
đầu tiên này là thuật toán học máy cơ bản và những thuật toán phổ biến
khác trên thị trường [3]. Trong thị trường năng động, có nhiều loại yếu
nhất. Các thuật toán như vậy bao gồm Mạng thần kinh nhân tạo, Học cây
tố khác nhau ảnh hưởng đến quyết định của khách hàng khi họ quyết định
quyết định và Hồi quy logistic, Máy vectơ hỗ trợ (SVM), Na¨ıve Bayes
rời bỏ. Những yếu tố này bao gồm: Các yếu tố công nghệ khiến khách hàng
và nhiều thuật toán khác [9], [3], [5].
có động lực chuyển sang một công ty cạnh tranh cung cấp các sản phẩm
công nghệ tiên tiến hơn. Các yếu tố kinh tế, ví dụ như giá rẻ hơn hoặc
sản phẩm do đối thủ cạnh tranh cung cấp. Một loại mô hình học máy khác để dự đoán trước khi rời bỏ là các
thuật toán tập hợp dựa trên khái niệm học tập tập hợp. Học tập theo
Chất lượng, vì chất lượng dịch vụ khách hàng kém sẽ thúc đẩy anh ta nhóm là một cách
phát triển các bộ phân loại yếu khác nhau từ đó tạo ra một bộ phân các nhà nghiên cứu đã áp dụng phương pháp lấy mẫu quá mức ADASYN để
loại mới hoạt động tốt hơn bất kỳ bộ phân loại yếu nào [3]. Các nâng cao khả năng học hỏi từ dữ liệu rời rạc không cân bằng.
trình phân loại yếu này có thể khác nhau về thuật toán được sử Kết quả cho thấy rằng việc sử dụng phương pháp ADASYN có thể nâng
dụng, siêu tham số, mẫu huấn luyện hoặc các tính năng đi kèm. Ví cao đáng kể tỷ lệ bao phủ của khách hàng rời mạng. Hơn nữa, mô
dụ về Tập hợp dự đoán tỷ lệ rời bỏ bao gồm Rừng ngẫu nhiên, hình lai này được đặc trưng bởi khả năng diễn giải cao vì trọng số
RotBoost, Rừng xoay [10], [5], [11]. đối tượng được phân bổ cung cấp chỉ báo về tầm quan trọng của các
đối tượng tương ứng trong quá trình phân loại.
cùng, kết luận của công việc này được đưa ra ở Phần VIII. Idris và cộng sự [16] đã đề xuất hệ thống dự đoán rời rạc
thông minh cho dữ liệu viễn thông bằng cách sử dụng phương pháp
trích xuất tính năng hiệu quả và phương pháp tổng hợp. Họ đã sử
dụng việc lấy mẫu dưới mức để xử lý vấn đề mất cân bằng dữ liệu và
II. CÔNG TRÌNH LIÊN QUAN
nhận thấy rằng kỹ thuật dự phòng tối thiểu và mức độ liên quan tối
Nhiều nhà nghiên cứu đã xem xét vấn đề dữ liệu mất cân bằng đa (mRMR) có thể trả về các đặc điểm dễ giải thích nhất khi so sánh
trong đó số lượng nhóm khách hàng rời bỏ thấp hơn số lượng nhóm với tỷ lệ Fisher và điểm F.
khách hàng đang hoạt động, đây là một vấn đề khá nghiêm trọng trong Hơn nữa, phương pháp RotBoost kết hợp với các tính năng mRMR mang
dự đoán tỷ lệ rời bỏ [3]. lại hiệu suất dự đoán cao đáng kể khi áp dụng trên các bộ dữ liệu
viễn thông tiêu chuẩn.
Idris và cộng sự [11] đã đề xuất một cách tiếp cận dựa trên
lập trình ge-netic sử dụng AdaBoost để mô hình hóa vấn đề rời rạc Idris và cộng sự. [10] đã sử dụng phương pháp lấy mẫu dưới mức
trong lĩnh vực viễn thông. Các nhà nghiên cứu này đã sử dụng dựa trên PSO cho mục đích dự đoán tỷ lệ rời bỏ. Chức năng của PSO
phương pháp lấy mẫu dưới mức dựa trên Tối ưu hóa nhóm hạt để giải là tìm kiếm các ví dụ có nhiều thông tin nhất của lớp đa số, sắp
quyết sự mất cân bằng trong dữ liệu viễn thông. Phương pháp này xếp chúng và tích hợp chúng với lớp thiểu số để tối đa hóa độ chính
cung cấp sự phân phối không thiên vị của tập huấn luyện cho hệ xác của phân loại.
thống dự đoán phụ thuộc vào GP-AdaBoost. Các nhà nghiên cứu này đã chọn tối đa hóa AUC làm hàm thích ứng
Hiệu suất của phương pháp đề xuất này được đánh giá trên hai bộ dữ kết hợp với Rừng ngẫu nhiên (RF) và bộ phân loại k-NN. Các kết quả
liệu tiêu chuẩn, một cho Orange Telecom và một cho cell2cell. Độ đánh giá đã phát hiện ra rằng kỹ thuật dựa trên PSO đã nâng cao
chính xác của dự đoán rời bỏ được tạo ra là 0,86 AUC đối với dữ hiệu suất của bộ phân loại k-NN và RF.
liệu Orange Telecom và 0,91 AUC đối với dữ liệu cell2cell.
Qureshi và cộng sự. [17] đã trình bày cuộc thảo luận về việc
Faris [3] đã trình bày mô hình lai dựa trên phương pháp lấy mẫu sử dụng các phương pháp lấy mẫu dưới mức và lấy mẫu quá mức để giải
quá mức, tích hợp Tối ưu hóa nhóm hạt (PSO) với Mạng trọng lượng quyết vấn đề mất cân bằng giai cấp nhằm xác định những khách hàng
ngẫu nhiên để giải quyết vấn đề xáo trộn trong dữ liệu viễn thông. sắp rời bỏ dựa trên dữ liệu lịch sử. Burez và Van den Poel [8]
trong các mô hình dự đoán tỷ lệ rời bỏ và so sánh mức hiệu suất giữa tập lân cận được tính bằng ri = Số điểm đa số/k.
Lấy mẫu dưới mức nâng cao, Lấy mẫu ngẫu nhiên, Rừng ngẫu nhiên có Trong khi đó, việc chuẩn hóa ri đại diện cho phân bố mật độ (r
trọng số và Mô hình tăng cường độ dốc. Họ sử dụng AUC và Lift làm ADASYN khác Tôi
). Việc áp dụng phân bố mật độ làm cho
thước đo hiệu suất của mô hình. Kết quả đánh giá cho thấy kỹ thuật với các thuật toán trước đó để học một cách thích ứng các điểm dữ
lấy mẫu dưới mức vượt trội so với các phương pháp được kiểm tra khác. liệu của lớp thiểu số. Phân phối mật độ được sử dụng để tìm số điểm
tổng hợp cho mỗi điểm dữ liệu thiểu số , như trong phương trình 2.
Để giải quyết vấn đề dự đoán thay đổi cho các công ty viễn thông,
một cách tiếp cận dựa trên bộ phân loại XGBoost với các phương pháp
gi = r tôi
× G (2)
lấy mẫu quá mức đã được đề xuất.
Bốn phương pháp lấy mẫu quá mức phổ biến và nổi tiếng được sử dụng và
so sánh giữa chúng về khả năng xử lý vấn đề mất cân bằng dữ liệu, đó Đối với mỗi điểm dữ liệu thiểu số xi , một điểm ngẫu nhiên trong
là lấy mẫu quá mức ngẫu nhiên, SMOTE, ADASYN và Borderline SMOTE. số các điểm được gắn nhãn thiểu số của tập lân cận xj được chọn để
tạo ra các điểm tổng hợp gi . Các điểm dữ liệu mới được
tạo như trong biểu thức. 3. Trong đó, diffj là hiệu giữa xi và xj và
λ là số ngẫu nhiên.
III. PHƯƠNG PHÁP
Phần này mô tả các phương pháp lấy mẫu quá mức và XGBoost được áp
xnew = xi + diffj × λ, λ [0, 1] (3)
dụng để xây dựng mô hình dự đoán tỷ lệ lưu giữ trong công việc này.
Sự phân bố mật độ của ADASYN xác định trọng số không đồng nhất
A. Phương pháp lấy mẫu quá mức của các điểm thiểu số, dẫn đến việc quyết định một cách hiệu quả số
lượng điểm tổng hợp sẽ được tạo cho mỗi điểm được gắn nhãn thiểu số.
Trong phần này, các phương pháp lấy mẫu quá mức được sử dụng cho việc rời bỏ
3) ADASYN: Năm 2008, một chiến lược lấy mẫu quá mức khác đã được
thiết kế, đó là ADASYN [19]. ADASYN được đề xuất để giảm bớt sự thiên Do đó, các điểm a được chọn ngẫu nhiên từ các điểm lân cận.
vị trong quá trình học tập và thực hiện học tập thích ứng bằng cách Sự khác biệt được tính toán giữa mỗi điểm từ s và điểm nguy hiểm
thiết lập một cách thích ứng khu vực quyết định của các điểm thiểu số tương ứng, trong đó sự khác biệt được biểu thị bằng (diffj ). Sau đó,
khó học. Trong ADASYN, tỷ lệ giữa các phiên bản thiểu số và các phiên điểm dữ liệu tổng hợp mới được tạo dựa trên biểu thức. 4, cho rằng
bản đa số d được tính toán để tìm ra số lượng phiên bản tổng hợp G rj là một số ngẫu nhiên [1, s].
thích hợp cho lớp thiểu số (Phương trình 1).
G = ( bm a M) × β, β [0, 1] (1)
Trong phiên bản 2 của Borderline-SMOTE, các điểm lân cận của các
Đối với mỗi điểm được gắn nhãn thiểu số, ak số điểm lân cận gần điểm trong vùng nguy hiểm được xem xét từ hai lớp; thiểu số và đa số.
nhất được xác định. Tỷ lệ của tầng lớp đa số
B. XGBoost nếp gấp. Tất cả các phương pháp oversampling đều được áp
dụng ở các tỷ lệ lấy mẫu khác nhau để nghiên cứu ảnh hưởng
Tăng cường độ dốc cực cao (XGBoost) có thể được định nghĩa là
của tỷ lệ này đến kết quả phân loại của bộ phân loại.
phiên bản cải tiến của thuật toán tăng cường độ dốc và thuật toán
này xem xét một trong những kỹ thuật\công cụ học máy được áp dụng • Sau bước lấy mẫu quá mức, XGBoost được huấn luyện bằng cách sử
cho các vấn đề phân loại và hồi quy. Ý tưởng đằng sau khái niệm của dụng dữ liệu được lấy mẫu quá mức và được kiểm tra trên dữ
nó là thúc đẩy những người học yếu trở nên mạnh mẽ hơn bằng cách sử liệu thử nghiệm không được lấy mẫu quá mức.
dụng cơ chế cây quyết định.
• Sau khi áp dụng quy trình xác thực chéo, hiệu suất của XGBoost
Phiên bản cải tiến này sử dụng một mô hình chính quy hơn để giảm
được đánh giá bằng cách sử dụng các số liệu phân loại phổ
thiểu và kiểm soát tình trạng trang bị quá mức của mô hình nhằm cải
biến là: tỷ lệ chính xác, độ chính xác, khả năng thu hồi và
thiện hiệu suất của nó. Về cơ bản, XGBoost đã áp dụng ba kỹ thuật
thước đo F1.
chính của tăng cường độ dốc, đó là tăng cường Chính quy, Độ dốc và
ngẫu nhiên để nâng cao và điều chỉnh mô hình. Hơn nữa, nó có khả năng
giảm mức tiêu thụ thời gian cùng với việc sử dụng tài nguyên bộ nhớ
V. MÔ TẢ BỘ DỮ LIỆU CHURN
tối ưu, thực thi song song và xử lý các giá trị còn thiếu trong khi
tạo cấu trúc cây [21], [22]. Tập dữ liệu được sử dụng trong công việc này được sử dụng để xây
dựng các mô hình dự đoán tỷ lệ giữ chân bao gồm thông tin của 5000
người đăng ký và bao gồm 20 biến độc lập được hiển thị trong Bảng I.
XGBoost khi triển khai thuật toán cây coi các tính năng trong
Lưu ý rằng ba tính năng đã bị xóa khỏi tập dữ liệu vì chúng không
tập dữ liệu là một nút có điều kiện, trong đó nó chia thành nhiều
cung cấp bất kỳ thông tin nào. là: tiểu bang, mã vùng và số điện
nhánh khác nhau và phân tách cho đến khi nút lá đại diện cho việc
thoại. Biến phụ thuộc trong tập dữ liệu là liệu khách hàng có rời
phát hiện sự cố đã chọn. Ngoài ra, XGBoost phụ thuộc vào siêu tham
khỏi công ty hay không, được mã hóa là 1 cho “có” và 0 cho “không”.
số của nó để hoạt động tốt khi xét đến số lượng và đặc điểm của nó.
Trong tập dữ liệu có 707 khách hàng đã rời công ty nên tỷ lệ rời bỏ
trong tập dữ liệu là 14%.
Trong phần này, khung dự đoán rời bỏ khách hàng được mô tả, xem BẢNG I. DANH SÁCH CÁC TÍNH NĂNG CỦA BỘ DỮ LIỆU CHURN .
Hình 1. Hai thành phần chính của khung này là thuật toán phân loại
Tình trạng Tổng số phút đêm trước
và phương pháp lấy mẫu quá mức. Để phân loại, bộ phân loại XGBoost
Tổng số cuộc gọi đêm trước
Độ dài tài khoản
mạnh mẽ được sử dụng. Trong khi đối với việc lấy mẫu quá mức, chúng Mã vùng Tổng phí đêm trước
Số điện thoại
tôi thử bốn phương pháp lấy mẫu quá mức khác nhau, tất cả đều là các Tổng số phút đêm
• Đầu tiên, tập dữ liệu sẽ được chia thành hai phần. Phần đầu
VI. BIỆN PHÁP ĐÁNH GIÁ
tiên được sử dụng để điều chỉnh tham số, trong khi phần thứ
hai sẽ được sử dụng để đào tạo và thử nghiệm các mô hình đã
Trong bài viết này, các tiêu chí về độ chính xác, thu hồi, độ
phát triển. Lấy mẫu phân tầng được sử dụng vì tập dữ liệu
chính xác và hiệu suất đo F được sử dụng để đánh giá XGBoost và các
không cân bằng và điều quan trọng là phải có cùng một khẩu
bộ phân loại điểm chuẩn nổi tiếng, được chọn trong dự đoán rời rạc
phần nhãn lớp trong cả hai mẫu của các bộ phận.
cho lĩnh vực viễn thông. Bốn tiêu chí đánh giá hiệu suất được tính
• Ở bước thứ hai, các tham số của XGBoost được điều chỉnh bằng toán dựa trên ma trận nhầm lẫn được trình bày trong Bảng I. Các
thuật toán GridSearch được triển khai trong Python. Đây là trường hợp dương tính giả và dương tính thực được ký hiệu tương ứng
bước rất quan trọng vì XG-Boost rất nhạy cảm với các giá là FP và TP, trong khi các trường hợp âm tính giả và âm tính thực
trị ban đầu của nhiều tham số của nó. Bước này sẽ đảm bảo được viết tắt là FN và TN, tương ứng [9] (Bảng II).
tối đa hóa hiệu suất của bộ phân loại trong các thử nghiệm
còn lại.
Mặt khác, độ chính xác là tỷ lệ phần trăm các trường hợp dương
tính được dự đoán chính xác. Nó được tính toán bằng phương trình sau
• Phần thứ hai của bộ dữ liệu được sử dụng để thử và kiểm tra [9]:
thuật toán bằng kỹ thuật xác thực chéo 10 lần. Sử dụng cách
này, 9 nếp gấp được sử dụng để huấn luyện mô hình và một TP
nếp gấp được sử dụng để kiểm tra mô hình. P chính xác = (5)
TP + FP
Quá trình này được lặp lại 10 lần. Sau đó tính giá trị trung
bình của các kết quả.
• Bước tiếp theo là phương pháp lấy mẫu quá mức. Trong bước này, BẢNG II. Ma trận nhầm lẫn
bốn phương pháp lấy mẫu quá mức rất phổ biến được sử dụng:
Lớp dự đoán
Bộ lấy mẫu quá mức ngẫu nhiên, SMOTE, ADASYN và Bor-derline Máy khuấy không khuấy
SMOTE. Điều rất quan trọng cần lưu ý là các phương pháp lấy Người không khuấy TN FP
Lớp thực tế
máy khuấy FN TP
mẫu quá mức này chỉ được áp dụng trong quá trình huấn luyện.
Hình 1. Khung XGBoost với tính năng lấy mẫu quá mức để dự đoán tỷ lệ rời bỏ khách hàng.
Ở các khía cạnh khác, việc thu hồi thể hiện tỷ lệ phần trăm các Số đo F càng gần 1 thì càng tốt. Giá trị thước đo F gần bằng
trường hợp dương tính được dự đoán chính xác. Nó được tính toán bằng 1 có nghĩa là bộ phân loại được đánh giá cung cấp khả năng thu
phương trình [9]: hồi và độ chính xác kết hợp tốt [9].
số kia. Do đó, thước đo F, là sự kết hợp phổ biến của hai thước
Để điều chỉnh tham số của bộ phân loại học máy, 1/5 tập dữ
đo này, thường được sử dụng làm thước đo duy nhất để đánh giá liệu gồm 1000 phiên bản được sử dụng
hiệu suất của bộ phân loại. Biện pháp này được định nghĩa là giá
cho nhiệm vụ này. Để thực hiện tác vụ này, GridSearchCV từ thư
trị trung bình hài hòa của độ thu hồi và độ chính xác [9]:
viện sklearn trong Python được sử dụng. Hàm GridSearchCV được áp
dụng với xác thực chéo 3 lần để tìm ra các tham số tốt nhất của
Rừng ngẫu nhiên, SVM, XGBoost, Hồi quy logistic và phân loại
Chỉnh sửa 2 × P × Thu hồi SGD. Phạm vi của các tham số được GridSearchCV tìm kiếm được chỉ
F số đo = (số 8)
P chính xác + Thu hồi định như đã cho
trong Bảng III. Các thông số tốt nhất của thí nghiệm này được liệt kê phương pháp chưa cải thiện được độ chính xác và thước đo F1 của Rừng
trong Bảng IV. ngẫu nhiên và XGBoost.
Phần còn lại của tập dữ liệu gồm 1000 phiên bản (khách hàng) được
D. XGBoost kết hợp với các phương pháp lấy mẫu quá mức
sử dụng để đào tạo và kiểm tra các bộ phân loại học máy bằng cách sử
dụng xác thực chéo 10 lần. Trong phần này, hiệu suất của XGBoost kết hợp với các phương pháp
lấy mẫu quá mức sẽ được thử nghiệm. Các phương pháp lấy mẫu quá mức
là: Bộ lấy mẫu quá mức ngẫu nhiên, SMOTE, ADASYN và Borederline SMOTE.
BẢNG III. PHẠM VI THAM SỐ CHO TÌM KIẾM LƯỚI
Tất cả các lần lấy mẫu quá mức này đều được kiểm tra bằng XGBoost ở
Trình phân loại Phạm vi tham số N công các tỷ lệ lấy mẫu quá khác nhau bắt đầu từ 20% cho đến 100%.
Rừng ngẫu nhiên cụ ước tính: start:200,end:2000 Tính
Gamma: [0,5, 1, 1,5] 100%. Số đo F1 tốt nhất đã đạt được ở mức 40%. Sự gia tăng F1 và thu
Mẫu phụ: [0,6, 0,8, 1,0] hồi này đã làm giảm tỷ lệ chính xác từ khoảng 91% xuống còn khoảng 84%.
Cây mẫu đơn: [0,6, 0,8, 1,0]
Độ sâu tối đa: [3, 4, 5]
LogisticRegression C: [1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1e0]
Bộ phân loại SGD Hình 3 thể hiện kết quả của SMOTE kết hợp với XG-Boost. Có thể
Alpha: [1e-4, 1e-3, 1e-2, 1e-1, 1e0, 1e1, 1e2, 1e3]
thấy rằng khả năng thu hồi tăng lên khi tăng tỷ lệ lấy mẫu quá mức cho
đến khi đạt khoảng 78% ở tỷ lệ lấy mẫu quá mức 100%. Thước đo F1 tốt
nhất đã đạt được ở mức 20%. Sự gia tăng F1 và thu hồi này đã làm giảm
BẢNG IV. CÁC THÔNG SỐ TỐT NHẤT CHO MÁY PHÂN LOẠI HỌC TẬP SỬ DỤNG PHƯƠNG PHÁP TÌM KIẾM LƯỚI.
B. So sánh XGBoost với các Trình phân loại khác Trong nghiên cứu này, một cách tiếp cận dựa trên thuật toán
gradient Boosted Trees với các phương pháp lấy mẫu quá mức được đề
Trong thử nghiệm này, XGBoost và các bộ phân loại máy học khác
xuất để dự đoán khả năng giữ chân khách hàng ở các công ty viễn thông.
được áp dụng trên tập dữ liệu để xây dựng mô hình giữ chân khách hàng
Trong phương pháp này, bốn phương pháp lấy mẫu quá mức phổ biến và
nhưng không áp dụng bất kỳ phương pháp cân bằng nào. Kết quả của thí
được đánh giá cao sẽ được sử dụng và so sánh, đó là: lấy mẫu quá mức
nghiệm này được nêu trong Bảng V.
ngẫu nhiên, SMOTE, ADASYN và Borderline SMOTE. Phần đầu tiên của thử
Từ kết quả, chúng ta có thể thấy rằng XGBoost và Random Forest hoạt
nghiệm cho thấy rằng Cây tăng cường độ dốc không lấy mẫu quá mức hoạt
động tốt hơn nhiều so với các bộ phân loại khác là SVM, Logistic
động tốt hơn các phân loại phổ biến khác bao gồm SVM, Rừng ngẫu
Regression và SGDClassifier trong tất cả các thước đo, đặc biệt là
nhiên, hồi quy Logestic và phân loại SGD. Trong phần thứ hai của thử
thước đo F1. Mặt khác, có sự khác biệt nhỏ giữa kết quả của XGBoost
nghiệm, các phương pháp lấy mẫu quá mức được áp dụng ở các tỷ lệ lấy
và Rừng ngẫu nhiên với lợi thế nhỏ dành cho XGBoost.
mẫu quá mức khác nhau.
Các thử nghiệm cho thấy rằng các phương pháp lấy mẫu quá mức cải thiện
hiệu suất của Cây tăng cường độ dốc trong việc dự đoán lớp rời bỏ và
C. So sánh XGBoost với các Bộ phân loại khác sau khi sử dụng Phương giá trị thước đo F tốt nhất (khoảng 84%) có thể đạt được bằng phương
pháp Trọng số pháp SMOTE ở tỷ lệ lấy mẫu quá mức là 20%.
Trong thí nghiệm này, chúng tôi nghiên cứu ảnh hưởng của phương
pháp cân bằng lớp đến kết quả của các bộ phân loại học máy đã được áp
dụng trong thí nghiệm trước. Kết quả của thí nghiệm này được đưa ra
trong Bảng VI. Chúng ta có thể thấy rằng hiệu suất của SVM, hồi quy
logistic và phân loại SGD đã được cải thiện. Tuy nhiên, hiệu suất của
XGBoost và Random Forest vẫn tốt hơn nhiều so với hiệu suất của các
bộ phân loại khác. Mặt khác việc cân bằng giai cấp
Hình 2. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của Bộ lấy mẫu ngẫu nhiên lên các thước đo đánh giá của XGBoost.
Hình 3. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của SMOTE đối với các thước đo đánh giá của XGBoost.
Hình 4. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của ADASYN đến các thước đo đánh giá của XGBoost.
Hình 5. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của BorderLine SMOTE đối với các biện pháp đánh giá của XGBoost.
BẢNG VI. SO SÁNH XGBOOST VỚI CÁC PHƯƠNG PHÁP PHÂN LOẠI KHÁC SAU KHI ÁP DỤNG PHƯƠNG PHÁP TRỌNG LƯỢNG LỚP.
NGƯỜI GIỚI THIỆU [12] B. Zhu, B. Baesens và SK vanden Broucke, “Một so sánh thực nghiệm về các kỹ
thuật giải quyết vấn đề mất cân bằng giai cấp trong dự đoán tỷ lệ rời bỏ,”
[1] AK Ahmad, A. Jafar và K. Aljoumaa, “Dự đoán tỷ lệ rời bỏ khách hàng trong lĩnh
Khoa học thông tin, tập. 408, trang 84–99, 2017.
vực viễn thông bằng cách sử dụng máy học và phân tích mạng xã hội trong nền
[13] A. Amin, S. Anwar, A. Adnan, M. Nawaz, N. Howard, J. Qadir, A. Hawalah và A.
tảng dữ liệu lớn,” bản in trước arXiv arXiv:1904.00690, 2019.
Hussain, “So sánh các kỹ thuật lấy mẫu quá mức để xử lý vấn đề mất cân bằng
[2] C.-P. Wei và I.-T. Chiu, “Biến chi tiết cuộc gọi viễn thông thành dự đoán rời
lớp: Khách hàng rời bỏ nghiên cứu trường hợp dự đoán,” IEEE Access, tập. 4,
rạc: phương pháp khai thác dữ liệu,” Hệ thống chuyên gia với các ứng dụng,
trang 7940–7957, 2016.
tập. 23, không. 2, trang 103–112, 2002.
[14] A. Hanif và N. Azhar, “Giải quyết sự mất cân bằng giữa các lớp và lựa chọn tính
[3] H. Faris, “Mô hình mạng lưới thần kinh thông minh bầy đàn lai để dự đoán tỷ lệ
năng trong tập dữ liệu về tỷ lệ rời bỏ khách hàng,” tại Hội nghị Quốc tế về
rời bỏ khách hàng và xác định các yếu tố ảnh hưởng,”
Biên giới Công nghệ Thông tin (FIT) năm 2017. IEEE, 2017, trang 82–86.
Thông tin, tập. 9, không. 11, tr. 288, 2018.
[15] H. Faris, “Các quy tắc làm sạch khu vực lân cận và tối ưu hóa nhóm hạt để dự đoán
[4] V. Mahajan, M. Richa và M. Renuka, “Xem xét các yếu tố ảnh hưởng đến việc rời bỏ
hành vi rời bỏ của khách hàng trong ngành viễn thông,” Tạp chí Khoa học và
khách hàng trong lĩnh vực viễn thông,” Tạp chí Quốc tế về Kỹ thuật và Chiến
Công nghệ Tiên tiến Quốc tế, tập. 68, không. 1, trang 11–22, 2014.
lược Phân tích Dữ liệu, tập. 9, không. 2, trang 122–144, 2017.
[7] A. Sharma và P. Prabin, “Một cách tiếp cận dựa trên mạng thần kinh để dự đoán sự
[18] NV Chawla, KW Bowyer, LO Hall và WP Kegelmeyer, “Smote: kỹ thuật lấy mẫu quá mức
thay đổi của khách hàng đối với các dịch vụ mạng di động,” Tạp chí Quốc tế về
của thiểu số tổng hợp,” Tạp chí nghiên cứu trí tuệ nhân tạo, tập. 16, trang
Ứng dụng Máy tính, tập. 27, không. 11, trang 26–31, 2011.
321–357, 2002.
[8] J. Burez và D. Van den Poel, “Xử lý sự mất cân bằng giai cấp trong dự đoán tỷ lệ
[19] H. He, Y. Bai, EA Garcia và S. Li, “Adasyn: Phương pháp lấy mẫu tổng hợp thích
rời bỏ khách hàng,” Hệ thống chuyên gia với các ứng dụng, tập. 36, không. 3,
ứng cho việc học không cân bằng,” trong Hội nghị chung quốc tế của IEEE về
trang 4626–4636, 2009.
Mạng thần kinh năm 2008 (Đại hội thế giới về trí tuệ tính toán của IEEE) .
[9] T. Vafeiadis, KI Diamantaras, G. Sarigiannidis và KC Chatzisav-vas, “So sánh IEEE, 2008, trang 1322–1328.
các kỹ thuật học máy để dự đoán tỷ lệ rời bỏ khách hàng,” Lý thuyết và thực
[20] H. Han, W.-Y. Wang và B.-H. Mao, “Borderline-smote: một phương pháp lấy mẫu quá
hành mô hình hóa mô phỏng, tập. 55, trang 1–9, 2015.
mức mới trong việc học tập dữ liệu không cân bằng,” tại Hội nghị quốc tế về
điện toán thông minh. Springer, 2005, trang 878–887.
[10] A. Idris, M. Rizwan và A. Khan, “Dự đoán xáo trộn trong viễn thông bằng cách sử [21] T. Chen, T. He, M. Benesty, V. Khotilovich và Y. Tang, “Xgboost: tăng cường độ
dụng rừng ngẫu nhiên và cân bằng dữ liệu dựa trên pso kết hợp với các chiến dốc cực cao,” phiên bản gói R 0.4-2, trang 1–4, 2015.
lược lựa chọn tính năng khác nhau,” Máy tính & Kỹ thuật Điện, tập. 38, không.
[22] T. Chen và C. Guestrin, “Xgboost: Một hệ thống tăng cường cây có thể mở rộng,”
6, trang 1808–1819, 2012.
trong Kỷ yếu của hội nghị quốc tế acm sigkdd lần thứ 22 về khám phá kiến thức
[11] A. Idris, A. Iftikhar và Z. ur Rehman, “Dự đoán tỷ lệ rời bỏ thông minh cho viễn và khai thác dữ liệu. ACM, 2016, trang 785–794.
thông bằng cách sử dụng phương pháp học gp-adaboost và lấy mẫu dưới pso,” Máy
tính cụm, tập. 22, không. 3, trang 7241–7255, 2019.