Paper 85-Predicting Customer Retention Using XGBoost

Machine Translated by Google
(IJACSA) Tạp chí quốc tế về ứng dụng và khoa học máy tính tiên tiến, Tập. 11, số 7, 2020
Dự đoán khả năng giữ chân khách hàng bằng XGBoost và

Phương pháp cân bằng
Atallah M. AL-Shatnwai1 Khoa Hệ Mohammad Faris2

thống Thông tin Đại học Al al-Bayt Mafraq, Altibbi
Jordan Amman, Jordan
Tóm tắt—Giữ chân khách hàng được coi là một trong những mối quan rời khỏi công ty của mình như Bảo hiểm yếu. Hoặc thậm chí là những khó
tâm quan trọng của nhiều công ty và tổ chức tài chính như ngân hàng, khăn trong việc sử dụng sản phẩm và sự chậm trễ trong việc cung cấp
nhà cung cấp dịch vụ viễn thông, dịch vụ đầu tư, bảo hiểm và bán dịch vụ hoặc sản phẩm [4].
lẻ. Các chỉ số và số liệu tiếp thị gần đây cho thấy việc thu hút và
giành được khách hàng hoặc người đăng ký mới tốn kém và khó khăn hơn Ngày nay, các nhà cung cấp dịch vụ viễn thông rất chú trọng đến
nhiều so với việc giữ chân những khách hàng hiện có. Do đó, việc mất việc giữ chân khách hàng hơn là thu hút khách hàng vì chi phí để có
một khách hàng hoặc một người đăng ký sẽ tác động tiêu cực đến sự được một khách hàng mới cao hơn chi phí để giữ chân một khách hàng hiện
tăng trưởng và lợi nhuận của công ty. có. Do đó, các công ty viễn thông nổi tiếng coi cơ sở dữ liệu khách
Trong công việc này, chúng tôi đề xuất mô hình giữ chân khách hàng
hàng hiện tại của họ là tài sản có lợi nhất [3].
dựa trên một trong những công cụ phân loại học máy mạnh mẽ nhất là
XGBoost. Trình phân loại thứ hai được thử nghiệm khi kết hợp với các
phương pháp lấy mẫu quá mức khác nhau để cải thiện hiệu suất của nó Dự đoán tỷ lệ rời bỏ khách hàng là một khái niệm dự đoán và xác
trong tập dữ liệu mất cân bằng đã sử dụng. Kết quả thử nghiệm cho định những khách hàng sắp rời bỏ công ty viễn thông để chuyển sang một
thấy kết quả rất hứa hẹn so với các bộ phân loại nổi tiếng khác. đối thủ cạnh tranh khác [5], [3]. Mô hình dự đoán tỷ lệ rời bỏ hỗ trợ
quản lý tỷ lệ rời bỏ khách hàng hiệu quả. Dự đoán tỷ lệ rời bỏ hỗ trợ
Từ khóa—Giữ chân khách hàng; dự đoán khuấy đảo; lấy mẫu quá mức; việc chuẩn bị các chiến lược bảo quản có mục tiêu nhằm hạn chế tổn thất
XGBoost và nâng cao các quyết định tiếp thị, xây dựng lòng trung thành của
khách hàng và tăng lợi nhuận [6]. Ví dụ: các ưu đãi và ưu đãi cụ thể có
I. GIỚI THIỆU thể được trao cho những phân khúc khách hàng rủi ro nhất. Bộ phận tiếp
thị, có thể lập kế hoạch tặng quà giảm giá cho khách hàng, các chương
Lĩnh vực viễn thông đã phát triển thành một ngành công nghiệp trình khuyến mãi/sự kiện khác, sản phẩm khác của các công ty chị em
chính ở các nước phát triển [1]. Tiến bộ kỹ thuật, cùng với số lượng khác nếu có [7].
nhà khai thác ngày càng tăng, đã làm tăng mức độ cạnh tranh trong lĩnh
vực này. Do đó, các công ty đang làm việc chăm chỉ để tồn tại trong thị
Quản lý rời bỏ được định nghĩa là một khái niệm điều tra quy trình
trường có tính cạnh tranh cao này và đang sử dụng các chiến lược khác
của nhà điều hành cổng nhằm cứu những khách hàng có lợi nhuận [7].
nhau cho mục đích này.
Bất cứ khi nào một công ty nhất định cố gắng xác định những khách hàng
Về mặt này, ba chiến lược chính đã được đề xuất để tạo thêm doanh thu
muốn rời bỏ trước khi họ thực hiện thì điều đó được coi là phương pháp
[2], [1]: (i) thu hút khách hàng mới, (ii) tăng doanh số bán hàng cho
quản lý chủ động rời bỏ. Sau đó, công ty đưa ra các ưu đãi (khuyến mãi)
khách hàng hiện tại và (3) tăng thời gian giữ chân của khách hàng.
đặc biệt cho những khách hàng như vậy để ngăn chặn việc họ rời bỏ.
Những chương trình ưu đãi được coi là đạt được lợi thế rất quan trọng
So sánh hiệu quả của các chiến lược này dựa trên Lợi tức đầu tư (RoI)
là nhận được chi phí thấp hơn. Mặt khác, nếu những dự đoán về tỷ lệ rời
đạt được từ mỗi chiến lược cho thấy chiến lược cuối cùng là chiến lược
bỏ của các phương pháp như vậy là không chính xác thì chúng sẽ bị coi
đáng giá nhất [1]. Điều này cho thấy rằng việc giữ chân một khách hàng
là lãng phí vì các công ty sẽ lãng phí tiền cho những khách hàng không
hiện tại khiến công ty tốn ít tiền hơn nhiều so với việc có được một
rời bỏ. Do đó, để có được thành công lớn của các chương trình khuyến
khách hàng mới. Hơn nữa, việc giữ chân dễ dàng hơn nhiều so với việc
khích khách hàng, cần phải có một mô hình dự đoán tỷ lệ rời bỏ khách
tăng doanh số bán hàng cho khách hàng hiện tại [1]. Để áp dụng thành
hàng chính xác [7], [8].
công chiến lược thứ ba, các công ty cần giảm thiểu khả năng khách hàng
rời bỏ.
Trong hai thập kỷ qua, một số thuật toán học máy đã được đề xuất
Khách hàng rời bỏ có thể được định nghĩa là khách hàng chấm dứt
trong tài liệu để giải quyết vấn đề rối loạn dự đoán. Loại thuật toán
mối quan hệ với nhà cung cấp dịch vụ và chuyển sang đối thủ cạnh tranh
đầu tiên này là thuật toán học máy cơ bản và những thuật toán phổ biến
khác trên thị trường [3]. Trong thị trường năng động, có nhiều loại yếu
nhất. Các thuật toán như vậy bao gồm Mạng thần kinh nhân tạo, Học cây
tố khác nhau ảnh hưởng đến quyết định của khách hàng khi họ quyết định
quyết định và Hồi quy logistic, Máy vectơ hỗ trợ (SVM), Na¨ıve Bayes
rời bỏ. Những yếu tố này bao gồm: Các yếu tố công nghệ khiến khách hàng
và nhiều thuật toán khác [9], [3], [5].
có động lực chuyển sang một công ty cạnh tranh cung cấp các sản phẩm
công nghệ tiên tiến hơn. Các yếu tố kinh tế, ví dụ như giá rẻ hơn hoặc
sản phẩm do đối thủ cạnh tranh cung cấp. Một loại mô hình học máy khác để dự đoán trước khi rời bỏ là các
thuật toán tập hợp dựa trên khái niệm học tập tập hợp. Học tập theo
Chất lượng, vì chất lượng dịch vụ khách hàng kém sẽ thúc đẩy anh ta nhóm là một cách
www.ijacsa.thesai.org 704 | Trang

phát triển các bộ phân loại yếu khác nhau từ đó tạo ra một bộ phân các nhà nghiên cứu đã áp dụng phương pháp lấy mẫu quá mức ADASYN để
loại mới hoạt động tốt hơn bất kỳ bộ phân loại yếu nào [3]. Các nâng cao khả năng học hỏi từ dữ liệu rời rạc không cân bằng.
trình phân loại yếu này có thể khác nhau về thuật toán được sử Kết quả cho thấy rằng việc sử dụng phương pháp ADASYN có thể nâng
dụng, siêu tham số, mẫu huấn luyện hoặc các tính năng đi kèm. Ví cao đáng kể tỷ lệ bao phủ của khách hàng rời mạng. Hơn nữa, mô
dụ về Tập hợp dự đoán tỷ lệ rời bỏ bao gồm Rừng ngẫu nhiên, hình lai này được đặc trưng bởi khả năng diễn giải cao vì trọng số
RotBoost, Rừng xoay [10], [5], [11]. đối tượng được phân bổ cung cấp chỉ báo về tầm quan trọng của các
đối tượng tương ứng trong quá trình phân loại.
Một trong những vấn đề chính với dự đoán rời bỏ là sự phân bổ

không cân bằng giữa các tầng lớp vì số lượng khách hàng không rời Hanif và Azhar [14] đã sử dụng các phương pháp cân bằng dữ
bỏ nhiều hơn số lượng khách hàng rời bỏ [12], [1], [3]. Điều này liệu của Lấy mẫu quá mức cho thiểu số tổng hợp (SMOTE), lấy mẫu
gây khó khăn cho các bộ phân loại học máy trong việc khám phá dưới ngẫu nhiên và lấy mẫu quá mức ngẫu nhiên trong nỗ lực giải
những khách hàng đang rời bỏ. Các phương pháp tiếp cận khác nhau đã quyết vấn đề mất cân bằng giai cấp. Họ phát hiện ra rằng việc lấy
được đề xuất để xử lý vấn đề này nhằm dự đoán tỷ lệ rời mạng, chẳng mẫu quá mức ngẫu nhiên đã tạo ra kết quả cân bằng dữ liệu tốt nhất.
hạn như lấy mẫu quá mức và lấy mẫu dưới mức [3], [11], [13]. Do đó, các nhà nghiên cứu này kết luận rằng các tính năng được
trích xuất quan trọng nhất thực sự là các tính năng liên quan đến
cuộc gọi của khách hàng. Amin và cộng sự. [13] đã so sánh mức độ
Trong công việc này, chúng tôi đề xuất và thử nghiệm ứng dụng
hiệu suất của sáu phương pháp lấy mẫu quá mức, cụ thể là SMOT, Hàm
một trong những thuật toán phân loại mạnh mẽ và hiệu quả nhất trong
khuếch tán xu hướng lớn (MTDF), kết hợp hàng xóm k gần nhất đảo
vài năm gần đây, đó là Extreme gradient Boosting (XGBoost) để dự
ngược top-N, lấy mẫu tổng hợp thích ứng, trung tâm miễn dịch trên-
đoán tình trạng gián đoạn trong kinh doanh viễn thông. Hiệu suất
lấy mẫu và các phương pháp lấy mẫu quá mức theo trọng số của thiểu
của XGBoost được thử nghiệm sau khi kết hợp nó với các phương pháp
số. Những phát hiện thực nghiệm của họ chỉ ra rằng hiệu suất dự
lấy mẫu quá mức phổ biến khác nhau để cải thiện hiệu suất của nó
đoán ròng của MTDF và việc tạo quy tắc dựa trên các phương pháp
khi áp dụng cho tập dữ liệu mất cân bằng.
thuật toán di truyền tốt hơn mức hiệu suất của các phương pháp lấy
Ứng dụng này được giới thiệu bởi một khung kỹ thuật và giải thích
mẫu quá mức được đánh giá khác và các thuật toán tạo quy tắc.
chi tiết về ứng dụng. Hiệu suất được đo bằng các số liệu đánh giá
khác nhau và được so sánh với các bộ phân loại phổ biến và nổi
tiếng. Faris [15] đã áp dụng phương pháp lấy mẫu dưới Quy tắc làm sạch
vùng lân cận (NCL) để cân bằng dữ liệu rời rạc. Phương pháp NCL xem
Bài viết này được cấu trúc như sau: Trong Phần II, chúng tôi
xét chất lượng của dữ liệu bị loại bỏ bằng cách tiến hành làm sạch
xem xét và thảo luận về các nghiên cứu dữ liệu phân phối mất cân
dữ liệu thay vì giảm dữ liệu. Sau khi áp dụng phương pháp NCL, một
bằng trước đó, trong khi ở Phần III, chúng tôi xem xét các phương
phiên bản sửa đổi của PSO, thường được gọi là PSO hạn chế, sẽ được
pháp chính sẽ được sử dụng trong khuôn khổ đề xuất. Trong Phần IV,
huấn luyện để phát triển mô hình dự đoán tỷ lệ rời mạng. Các thử
chúng tôi mô tả khung XGBoost kết hợp với các phương pháp lấy mẫu quá mức.
nghiệm cho thấy NCL có thể cải thiện đáng kể tỷ lệ bao phủ của các
Trong Phần V, tập dữ liệu được sử dụng trong công việc này được mô
lớp rời bỏ.
tả. Các biện pháp đánh giá được liệt kê trong Phần VI. Các thí
nghiệm và kết quả được mô tả và thảo luận chi tiết ở Phần VII. Cuối
cùng, kết luận của công việc này được đưa ra ở Phần VIII. Idris và cộng sự [16] đã đề xuất hệ thống dự đoán rời rạc
thông minh cho dữ liệu viễn thông bằng cách sử dụng phương pháp
trích xuất tính năng hiệu quả và phương pháp tổng hợp. Họ đã sử
dụng việc lấy mẫu dưới mức để xử lý vấn đề mất cân bằng dữ liệu và
II. CÔNG TRÌNH LIÊN QUAN
nhận thấy rằng kỹ thuật dự phòng tối thiểu và mức độ liên quan tối
Nhiều nhà nghiên cứu đã xem xét vấn đề dữ liệu mất cân bằng đa (mRMR) có thể trả về các đặc điểm dễ giải thích nhất khi so sánh
trong đó số lượng nhóm khách hàng rời bỏ thấp hơn số lượng nhóm với tỷ lệ Fisher và điểm F.
khách hàng đang hoạt động, đây là một vấn đề khá nghiêm trọng trong Hơn nữa, phương pháp RotBoost kết hợp với các tính năng mRMR mang
dự đoán tỷ lệ rời bỏ [3]. lại hiệu suất dự đoán cao đáng kể khi áp dụng trên các bộ dữ liệu
viễn thông tiêu chuẩn.
Idris và cộng sự [11] đã đề xuất một cách tiếp cận dựa trên
lập trình ge-netic sử dụng AdaBoost để mô hình hóa vấn đề rời rạc Idris và cộng sự. [10] đã sử dụng phương pháp lấy mẫu dưới mức
trong lĩnh vực viễn thông. Các nhà nghiên cứu này đã sử dụng dựa trên PSO cho mục đích dự đoán tỷ lệ rời bỏ. Chức năng của PSO
phương pháp lấy mẫu dưới mức dựa trên Tối ưu hóa nhóm hạt để giải là tìm kiếm các ví dụ có nhiều thông tin nhất của lớp đa số, sắp
quyết sự mất cân bằng trong dữ liệu viễn thông. Phương pháp này xếp chúng và tích hợp chúng với lớp thiểu số để tối đa hóa độ chính
cung cấp sự phân phối không thiên vị của tập huấn luyện cho hệ xác của phân loại.
thống dự đoán phụ thuộc vào GP-AdaBoost. Các nhà nghiên cứu này đã chọn tối đa hóa AUC làm hàm thích ứng
Hiệu suất của phương pháp đề xuất này được đánh giá trên hai bộ dữ kết hợp với Rừng ngẫu nhiên (RF) và bộ phân loại k-NN. Các kết quả
liệu tiêu chuẩn, một cho Orange Telecom và một cho cell2cell. Độ đánh giá đã phát hiện ra rằng kỹ thuật dựa trên PSO đã nâng cao
chính xác của dự đoán rời bỏ được tạo ra là 0,86 AUC đối với dữ hiệu suất của bộ phân loại k-NN và RF.
liệu Orange Telecom và 0,91 AUC đối với dữ liệu cell2cell.
Qureshi và cộng sự. [17] đã trình bày cuộc thảo luận về việc
Faris [3] đã trình bày mô hình lai dựa trên phương pháp lấy mẫu sử dụng các phương pháp lấy mẫu dưới mức và lấy mẫu quá mức để giải
quá mức, tích hợp Tối ưu hóa nhóm hạt (PSO) với Mạng trọng lượng quyết vấn đề mất cân bằng giai cấp nhằm xác định những khách hàng
ngẫu nhiên để giải quyết vấn đề xáo trộn trong dữ liệu viễn thông. sắp rời bỏ dựa trên dữ liệu lịch sử. Burez và Van den Poel [8]
Các nghiên cứu vấn đề mất cân bằng dữ liệu

trong các mô hình dự đoán tỷ lệ rời bỏ và so sánh mức hiệu suất giữa tập lân cận được tính bằng ri = Số điểm đa số/k.
Lấy mẫu dưới mức nâng cao, Lấy mẫu ngẫu nhiên, Rừng ngẫu nhiên có Trong khi đó, việc chuẩn hóa ri đại diện cho phân bố mật độ (r
trọng số và Mô hình tăng cường độ dốc. Họ sử dụng AUC và Lift làm ADASYN khác Tôi
). Việc áp dụng phân bố mật độ làm cho
thước đo hiệu suất của mô hình. Kết quả đánh giá cho thấy kỹ thuật với các thuật toán trước đó để học một cách thích ứng các điểm dữ
lấy mẫu dưới mức vượt trội so với các phương pháp được kiểm tra khác. liệu của lớp thiểu số. Phân phối mật độ được sử dụng để tìm số điểm
tổng hợp cho mỗi điểm dữ liệu thiểu số , như trong phương trình 2.
Để giải quyết vấn đề dự đoán thay đổi cho các công ty viễn thông,
một cách tiếp cận dựa trên bộ phân loại XGBoost với các phương pháp
gi = r tôi
× G (2)
lấy mẫu quá mức đã được đề xuất.
Bốn phương pháp lấy mẫu quá mức phổ biến và nổi tiếng được sử dụng và
so sánh giữa chúng về khả năng xử lý vấn đề mất cân bằng dữ liệu, đó Đối với mỗi điểm dữ liệu thiểu số xi , một điểm ngẫu nhiên trong
là lấy mẫu quá mức ngẫu nhiên, SMOTE, ADASYN và Borderline SMOTE. số các điểm được gắn nhãn thiểu số của tập lân cận xj được chọn để
tạo ra các điểm tổng hợp gi . Các điểm dữ liệu mới được
tạo như trong biểu thức. 3. Trong đó, diffj là hiệu giữa xi và xj và
λ là số ngẫu nhiên.
III. PHƯƠNG PHÁP
Phần này mô tả các phương pháp lấy mẫu quá mức và XGBoost được áp
xnew = xi + diffj × λ, λ [0, 1] (3)
dụng để xây dựng mô hình dự đoán tỷ lệ lưu giữ trong công việc này.
Sự phân bố mật độ của ADASYN xác định trọng số không đồng nhất
A. Phương pháp lấy mẫu quá mức của các điểm thiểu số, dẫn đến việc quyết định một cách hiệu quả số
lượng điểm tổng hợp sẽ được tạo cho mỗi điểm được gắn nhãn thiểu số.
Trong phần này, các phương pháp lấy mẫu quá mức được sử dụng cho việc rời bỏ
dự đoán sẽ được mô tả.

4) Borderline SMOTE: Năm 2005, Borderline-SMOTE được đề xuất [20],
1) Bộ lấy mẫu ngẫu nhiên: Một phương pháp khả thi để giải quyết
là một phần mở rộng của SMOTE với khả năng hoạt động mạnh mẽ hơn. Về
vấn đề lấy mẫu quá mức là tạo các mẫu mới trong các lớp được thể hiện
cơ bản, Borderline-SMOTE thực hiện hai giai đoạn; phân loại các vùng
dưới mức. Cách tiếp cận cơ bản và dễ dàng nhất là tạo ra các mẫu
lân cận thành ba loại vùng để xác định các trường hợp đường biên, sau
hiếm mới bằng cách lấy mẫu ngẫu nhiên và thay thế các mẫu hiếm hiện
đó tổng hợp các điểm mới. Trong phiên bản đầu tiên của Borderline-
có, chỉ đơn giản là sao chép một số trong số chúng.
SMOTE (Borderline-SMOTE1), dữ liệu mới chỉ được tạo từ các phiên bản
đường biên giới đã xác định.
2) SMOTE: [18] liên quan đến việc tạo ra các điểm dữ liệu tổng
hợp mới rất giống với các điểm dữ liệu thực. Cho một tập dữ liệu D
với số lượng phiên bản dữ liệu. Trong đó aM là số phiên bản của lớp Trong Borderline-SMOTE1, các lân cận gần nhất của điểm dữ liệu
thiểu số được chọn bất kể loại lớp (chính hay phụ). Do đó, tỷ lệ các
chính M và b m là số phiên bản của lớp phụ m. Chủ yếu, SMOTE tập
điểm thuộc lớp chính của các điểm lân cận được chọn sẽ quyết định xem
trung vào việc tăng tỷ lệ lớp phụ bằng cách tổng hợp các điểm dữ liệu
điểm dữ liệu tương ứng thuộc về vùng nhiễu, nguy hiểm hay an toàn.
mới. Nó bắt đầu bằng cách chọn một điểm dữ liệu được gắn nhãn thiểu
Nếu các lân cận của điểm thiểu số đều thuộc lớp đa số thì nó được
số i với một số điểm lân cận gần nhất k. Trong đó, những người hàng
phân loại là điểm nhiễu. Nếu các điểm lân cận chứa các điểm đa số có
xóm được chọn đều thuộc lớp thứ yếu. Tùy thuộc vào tốc độ lấy mẫu
tỷ lệ lớn hơn b m/2 thì điểm dữ liệu tương ứng được phân loại là điểm
được xác định trước, một số điểm ngẫu nhiên của các điểm lân cận đã
nguy hiểm. Trong khi có số điểm được gắn nhãn đa số với tỷ lệ nhỏ hơn
chọn sẽ được chọn. Do đó, các điểm lân cận được chọn ngẫu nhiên đó
b m/2, dẫn đến việc phân loại điểm tương ứng là điểm an toàn. Kết quả
sẽ tạo ra một đoạn đường liên kết chúng với điểm dữ liệu i. Từ mỗi
là tất cả các điểm thiểu số được phân loại là điểm nguy hiểm được gọi
đoạn đường, một điểm ngẫu nhiên được chọn làm điểm dữ liệu tổng hợp
là trường hợp ranh giới. Để tạo điểm mới, với mỗi điểm từ vùng nguy
mới. Quá trình này được lặp lại cho tất cả các điểm dữ liệu được gắn
hiểm pi , ak số điểm lân cận được chọn từ cùng một lớp thiểu số.
nhãn thiểu số.
3) ADASYN: Năm 2008, một chiến lược lấy mẫu quá mức khác đã được
thiết kế, đó là ADASYN [19]. ADASYN được đề xuất để giảm bớt sự thiên Do đó, các điểm a được chọn ngẫu nhiên từ các điểm lân cận.
vị trong quá trình học tập và thực hiện học tập thích ứng bằng cách Sự khác biệt được tính toán giữa mỗi điểm từ s và điểm nguy hiểm
thiết lập một cách thích ứng khu vực quyết định của các điểm thiểu số tương ứng, trong đó sự khác biệt được biểu thị bằng (diffj ). Sau đó,
khó học. Trong ADASYN, tỷ lệ giữa các phiên bản thiểu số và các phiên điểm dữ liệu tổng hợp mới được tạo dựa trên biểu thức. 4, cho rằng
bản đa số d được tính toán để tìm ra số lượng phiên bản tổng hợp G rj là một số ngẫu nhiên [1, s].
thích hợp cho lớp thiểu số (Phương trình 1).
p mới = pi + rj × diffj (4)
G = ( bm a M) × β, β [0, 1] (1)
Trong phiên bản 2 của Borderline-SMOTE, các điểm lân cận của các
Đối với mỗi điểm được gắn nhãn thiểu số, ak số điểm lân cận gần điểm trong vùng nguy hiểm được xem xét từ hai lớp; thiểu số và đa số.
nhất được xác định. Tỷ lệ của tầng lớp đa số

B. XGBoost nếp gấp. Tất cả các phương pháp oversampling đều được áp
dụng ở các tỷ lệ lấy mẫu khác nhau để nghiên cứu ảnh hưởng
Tăng cường độ dốc cực cao (XGBoost) có thể được định nghĩa là
của tỷ lệ này đến kết quả phân loại của bộ phân loại.
phiên bản cải tiến của thuật toán tăng cường độ dốc và thuật toán
này xem xét một trong những kỹ thuật\công cụ học máy được áp dụng • Sau bước lấy mẫu quá mức, XGBoost được huấn luyện bằng cách sử
cho các vấn đề phân loại và hồi quy. Ý tưởng đằng sau khái niệm của dụng dữ liệu được lấy mẫu quá mức và được kiểm tra trên dữ
nó là thúc đẩy những người học yếu trở nên mạnh mẽ hơn bằng cách sử liệu thử nghiệm không được lấy mẫu quá mức.
dụng cơ chế cây quyết định.
• Sau khi áp dụng quy trình xác thực chéo, hiệu suất của XGBoost
Phiên bản cải tiến này sử dụng một mô hình chính quy hơn để giảm
được đánh giá bằng cách sử dụng các số liệu phân loại phổ
thiểu và kiểm soát tình trạng trang bị quá mức của mô hình nhằm cải
biến là: tỷ lệ chính xác, độ chính xác, khả năng thu hồi và
thiện hiệu suất của nó. Về cơ bản, XGBoost đã áp dụng ba kỹ thuật
thước đo F1.
chính của tăng cường độ dốc, đó là tăng cường Chính quy, Độ dốc và
ngẫu nhiên để nâng cao và điều chỉnh mô hình. Hơn nữa, nó có khả năng
giảm mức tiêu thụ thời gian cùng với việc sử dụng tài nguyên bộ nhớ
V. MÔ TẢ BỘ DỮ LIỆU CHURN
tối ưu, thực thi song song và xử lý các giá trị còn thiếu trong khi
tạo cấu trúc cây [21], [22]. Tập dữ liệu được sử dụng trong công việc này được sử dụng để xây
dựng các mô hình dự đoán tỷ lệ giữ chân bao gồm thông tin của 5000
người đăng ký và bao gồm 20 biến độc lập được hiển thị trong Bảng I.
XGBoost khi triển khai thuật toán cây coi các tính năng trong
Lưu ý rằng ba tính năng đã bị xóa khỏi tập dữ liệu vì chúng không
tập dữ liệu là một nút có điều kiện, trong đó nó chia thành nhiều
cung cấp bất kỳ thông tin nào. là: tiểu bang, mã vùng và số điện
nhánh khác nhau và phân tách cho đến khi nút lá đại diện cho việc
thoại. Biến phụ thuộc trong tập dữ liệu là liệu khách hàng có rời
phát hiện sự cố đã chọn. Ngoài ra, XGBoost phụ thuộc vào siêu tham
khỏi công ty hay không, được mã hóa là 1 cho “có” và 0 cho “không”.
số của nó để hoạt động tốt khi xét đến số lượng và đặc điểm của nó.
Trong tập dữ liệu có 707 khách hàng đã rời công ty nên tỷ lệ rời bỏ
trong tập dữ liệu là 14%.
IV. XGBOOST VỚI OVERSAMPLING
Trong phần này, khung dự đoán rời bỏ khách hàng được mô tả, xem BẢNG I. DANH SÁCH CÁC TÍNH NĂNG CỦA BỘ DỮ LIỆU CHURN .
Hình 1. Hai thành phần chính của khung này là thuật toán phân loại
Tình trạng Tổng số phút đêm trước
và phương pháp lấy mẫu quá mức. Để phân loại, bộ phân loại XGBoost
Tổng số cuộc gọi đêm trước
Độ dài tài khoản
mạnh mẽ được sử dụng. Trong khi đối với việc lấy mẫu quá mức, chúng Mã vùng Tổng phí đêm trước
Số điện thoại
tôi thử bốn phương pháp lấy mẫu quá mức khác nhau, tất cả đều là các Tổng số phút đêm
Kế hoạch quốc tế Tổng số cuộc gọi đêm

biến thể của thuật toán SMOTE, phiên bản cơ bản của đường biên SMOTE,
Kế hoạch thư thoại Tổng phí đêm
ADASYN, SMOTE và phương pháp đơn giản nhất là lấy mẫu quá mức ngẫu Số tin nhắn vmail Tổng số phút intl
nhiên. Khung đề xuất có các bước sau:

Tổng số cuộc gọi quốc tế
Tổng số phút trong ngày
Tổng số cuộc gọi trong ngày Tổng phí quốc tế
Tổng phí ngày Số cuộc gọi chăm sóc khách hàng
• Đầu tiên, tập dữ liệu sẽ được chia thành hai phần. Phần đầu
VI. BIỆN PHÁP ĐÁNH GIÁ
tiên được sử dụng để điều chỉnh tham số, trong khi phần thứ
hai sẽ được sử dụng để đào tạo và thử nghiệm các mô hình đã
Trong bài viết này, các tiêu chí về độ chính xác, thu hồi, độ
phát triển. Lấy mẫu phân tầng được sử dụng vì tập dữ liệu
chính xác và hiệu suất đo F được sử dụng để đánh giá XGBoost và các
không cân bằng và điều quan trọng là phải có cùng một khẩu
bộ phân loại điểm chuẩn nổi tiếng, được chọn trong dự đoán rời rạc
phần nhãn lớp trong cả hai mẫu của các bộ phận.
cho lĩnh vực viễn thông. Bốn tiêu chí đánh giá hiệu suất được tính
• Ở bước thứ hai, các tham số của XGBoost được điều chỉnh bằng toán dựa trên ma trận nhầm lẫn được trình bày trong Bảng I. Các
thuật toán GridSearch được triển khai trong Python. Đây là trường hợp dương tính giả và dương tính thực được ký hiệu tương ứng
bước rất quan trọng vì XG-Boost rất nhạy cảm với các giá là FP và TP, trong khi các trường hợp âm tính giả và âm tính thực
trị ban đầu của nhiều tham số của nó. Bước này sẽ đảm bảo được viết tắt là FN và TN, tương ứng [9] (Bảng II).
tối đa hóa hiệu suất của bộ phân loại trong các thử nghiệm
còn lại.
Mặt khác, độ chính xác là tỷ lệ phần trăm các trường hợp dương
tính được dự đoán chính xác. Nó được tính toán bằng phương trình sau
• Phần thứ hai của bộ dữ liệu được sử dụng để thử và kiểm tra [9]:
thuật toán bằng kỹ thuật xác thực chéo 10 lần. Sử dụng cách
này, 9 nếp gấp được sử dụng để huấn luyện mô hình và một TP
nếp gấp được sử dụng để kiểm tra mô hình. P chính xác = (5)
TP + FP
Quá trình này được lặp lại 10 lần. Sau đó tính giá trị trung
bình của các kết quả.
• Bước tiếp theo là phương pháp lấy mẫu quá mức. Trong bước này, BẢNG II. Ma trận nhầm lẫn
bốn phương pháp lấy mẫu quá mức rất phổ biến được sử dụng:
Lớp dự đoán
Bộ lấy mẫu quá mức ngẫu nhiên, SMOTE, ADASYN và Bor-derline Máy khuấy không khuấy
SMOTE. Điều rất quan trọng cần lưu ý là các phương pháp lấy Người không khuấy TN FP
Lớp thực tế
máy khuấy FN TP
mẫu quá mức này chỉ được áp dụng trong quá trình huấn luyện.

(IJACSA) Tạp chí quốc tế về ứng dụng và khoa học máy tính tiên tiến, Tập. 11, số 7,
2020
Hình 1. Khung XGBoost với tính năng lấy mẫu quá mức để dự đoán tỷ lệ rời bỏ khách hàng.
Ở các khía cạnh khác, việc thu hồi thể hiện tỷ lệ phần trăm các Số đo F càng gần 1 thì càng tốt. Giá trị thước đo F gần bằng
trường hợp dương tính được dự đoán chính xác. Nó được tính toán bằng 1 có nghĩa là bộ phân loại được đánh giá cung cấp khả năng thu
phương trình [9]: hồi và độ chính xác kết hợp tốt [9].
TP VII. THÍ NGHIỆM VÀ KẾT QUẢ

Thu hồi (Độ nhạy) = (6)
TP + FN
Trong thử nghiệm này, chúng tôi đã sử dụng python3 và các
thư viện sau: Scikit-learn là một thư viện trong Python cung
Trong khi đó, độ chính xác biểu thị tỷ lệ phần trăm của cấp nhiều thuật toán học máy không giám sát và giám sát. Thư
dự đoán hoàn toàn chính xác. Nó được cho bởi phương trình [9]: viện này được xây dựng dựa trên các lib phổ biến khác như
NumPy, Pandas và Matplotlib. Đối với các thuật toán lấy mẫu quá
TP + TN mức, Học không cân bằng được sử dụng.
Độ chính xác = (7) Mất cân bằng-học không cân bằng-học là gói Python cung cấp một
TP + TN + FP + FN
tập hợp các thuật toán lấy mẫu lại thường được sử dụng cho các
tập dữ liệu không cân bằng.
Chỉ riêng việc thu hồi hoặc độ chính xác không thể mô tả
hiệu quả của bộ phân loại do hiệu suất tốt theo một trong hai
chỉ số này không nhất thiết có nghĩa là hiệu suất tốt theo chỉ A. Thiết lập thí nghiệm
số kia. Do đó, thước đo F, là sự kết hợp phổ biến của hai thước
Để điều chỉnh tham số của bộ phân loại học máy, 1/5 tập dữ
đo này, thường được sử dụng làm thước đo duy nhất để đánh giá liệu gồm 1000 phiên bản được sử dụng
hiệu suất của bộ phân loại. Biện pháp này được định nghĩa là giá
cho nhiệm vụ này. Để thực hiện tác vụ này, GridSearchCV từ thư
trị trung bình hài hòa của độ thu hồi và độ chính xác [9]:
viện sklearn trong Python được sử dụng. Hàm GridSearchCV được áp
dụng với xác thực chéo 3 lần để tìm ra các tham số tốt nhất của
Rừng ngẫu nhiên, SVM, XGBoost, Hồi quy logistic và phân loại
Chỉnh sửa 2 × P × Thu hồi SGD. Phạm vi của các tham số được GridSearchCV tìm kiếm được chỉ
F số đo = (số 8)
P chính xác + Thu hồi định như đã cho

trong Bảng III. Các thông số tốt nhất của thí nghiệm này được liệt kê phương pháp chưa cải thiện được độ chính xác và thước đo F1 của Rừng
trong Bảng IV. ngẫu nhiên và XGBoost.
Phần còn lại của tập dữ liệu gồm 1000 phiên bản (khách hàng) được
D. XGBoost kết hợp với các phương pháp lấy mẫu quá mức
sử dụng để đào tạo và kiểm tra các bộ phân loại học máy bằng cách sử
dụng xác thực chéo 10 lần. Trong phần này, hiệu suất của XGBoost kết hợp với các phương pháp
lấy mẫu quá mức sẽ được thử nghiệm. Các phương pháp lấy mẫu quá mức
là: Bộ lấy mẫu quá mức ngẫu nhiên, SMOTE, ADASYN và Borederline SMOTE.
BẢNG III. PHẠM VI THAM SỐ CHO TÌM KIẾM LƯỚI
Tất cả các lần lấy mẫu quá mức này đều được kiểm tra bằng XGBoost ở
Trình phân loại Phạm vi tham số N công các tỷ lệ lấy mẫu quá khác nhau bắt đầu từ 20% cho đến 100%.
Rừng ngẫu nhiên cụ ước tính: start:200,end:2000 Tính
năng tối đa: ['auto', 'sqrt']

Độ sâu tối đa:bắt đầu:10,kết
Hình 2 hiển thị kết quả của Bộ lấy mẫu ngẫu nhiên kết hợp với
thúc:110Chia mẫu tối thiểu: [2, 5]
SVM C: [0,1, 1, 10, 100, 1000] XGBoost. Có thể thấy rằng khả năng thu hồi tăng lên khi tăng tỷ lệ
Gamma: [1, 0,1, 0,01, 0,001, 0,0001]
lấy mẫu quá mức cho đến khi đạt khoảng 81% ở tỷ lệ lấy mẫu quá mức
XGboost Cân nặng tối thiểu của trẻ :[1, 5, 10]
Gamma: [0,5, 1, 1,5] 100%. Số đo F1 tốt nhất đã đạt được ở mức 40%. Sự gia tăng F1 và thu
Mẫu phụ: [0,6, 0,8, 1,0] hồi này đã làm giảm tỷ lệ chính xác từ khoảng 91% xuống còn khoảng 84%.
Cây mẫu đơn: [0,6, 0,8, 1,0]
Độ sâu tối đa: [3, 4, 5]
LogisticRegression C: [1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1e0]
Bộ phân loại SGD Hình 3 thể hiện kết quả của SMOTE kết hợp với XG-Boost. Có thể
Alpha: [1e-4, 1e-3, 1e-2, 1e-1, 1e0, 1e1, 1e2, 1e3]
thấy rằng khả năng thu hồi tăng lên khi tăng tỷ lệ lấy mẫu quá mức cho
đến khi đạt khoảng 78% ở tỷ lệ lấy mẫu quá mức 100%. Thước đo F1 tốt
nhất đã đạt được ở mức 20%. Sự gia tăng F1 và thu hồi này đã làm giảm
BẢNG IV. CÁC THÔNG SỐ TỐT NHẤT CHO MÁY PHÂN LOẠI HỌC TẬP SỬ DỤNG PHƯƠNG PHÁP TÌM KIẾM LƯỚI.
tỷ lệ chính xác từ khoảng 93% xuống còn khoảng 85%.
Trình phân loại Thông số tốt nhất

Rừng ngẫu nhiên Độ sâu tối đa: Hình 4 thể hiện kết quả của ADASYN kết hợp với XGBoost. Có thể
60 Tính năng tối đa:
thấy việc thu hồi gần như không đổi.
sqrt Phân chia mẫu tối
thiểu: 2 N công cụ ước Số đo F1 tốt nhất đã đạt được ở mức 40%. Sự gia tăng F1 và thu hồi
SVM tính:
này đã làm giảm tỷ lệ chính xác từ khoảng 91% xuống còn khoảng 87%.
1100 C: 0,1 Gamma:
0,0001
XGboost Kernel: rbf Colsample
bytree: 0,8 Hình 5 hiển thị kết quả của BorderLine kết hợp với XGBoost. Có
Gamma: 1,5 Độ thể thấy rằng khả năng thu hồi tăng lên khi tăng tỷ lệ lấy mẫu quá
sâu tối đa: 5 Trọng
lượng con tối
mức cho đến khi đạt khoảng 78% ở tỷ lệ lấy mẫu quá mức 100%. Thước đo
thiểu: 1 Mẫu phụ: 1,0 Hồi quy F1 tốt nhất đã đạt được ở mức 20%. Sự gia tăng F1 và thu hồi này đã
logistic C : làm giảm tỷ lệ chính xác từ khoảng 93% xuống còn khoảng 86%.
SGD 1.0 Mức
phạt: l2
Alpha: 1.0 Thua: log Mức phạt: l2
VIII. KẾT LUẬN VÀ CÁC CÔNG TRÌNH TƯƠNG LAI
B. So sánh XGBoost với các Trình phân loại khác Trong nghiên cứu này, một cách tiếp cận dựa trên thuật toán
gradient Boosted Trees với các phương pháp lấy mẫu quá mức được đề
Trong thử nghiệm này, XGBoost và các bộ phân loại máy học khác
xuất để dự đoán khả năng giữ chân khách hàng ở các công ty viễn thông.
được áp dụng trên tập dữ liệu để xây dựng mô hình giữ chân khách hàng
Trong phương pháp này, bốn phương pháp lấy mẫu quá mức phổ biến và
nhưng không áp dụng bất kỳ phương pháp cân bằng nào. Kết quả của thí
được đánh giá cao sẽ được sử dụng và so sánh, đó là: lấy mẫu quá mức
nghiệm này được nêu trong Bảng V.
ngẫu nhiên, SMOTE, ADASYN và Borderline SMOTE. Phần đầu tiên của thử
Từ kết quả, chúng ta có thể thấy rằng XGBoost và Random Forest hoạt
nghiệm cho thấy rằng Cây tăng cường độ dốc không lấy mẫu quá mức hoạt
động tốt hơn nhiều so với các bộ phân loại khác là SVM, Logistic
động tốt hơn các phân loại phổ biến khác bao gồm SVM, Rừng ngẫu
Regression và SGDClassifier trong tất cả các thước đo, đặc biệt là
nhiên, hồi quy Logestic và phân loại SGD. Trong phần thứ hai của thử
thước đo F1. Mặt khác, có sự khác biệt nhỏ giữa kết quả của XGBoost
nghiệm, các phương pháp lấy mẫu quá mức được áp dụng ở các tỷ lệ lấy
và Rừng ngẫu nhiên với lợi thế nhỏ dành cho XGBoost.
mẫu quá mức khác nhau.
Các thử nghiệm cho thấy rằng các phương pháp lấy mẫu quá mức cải thiện
hiệu suất của Cây tăng cường độ dốc trong việc dự đoán lớp rời bỏ và
C. So sánh XGBoost với các Bộ phân loại khác sau khi sử dụng Phương giá trị thước đo F tốt nhất (khoảng 84%) có thể đạt được bằng phương
pháp Trọng số pháp SMOTE ở tỷ lệ lấy mẫu quá mức là 20%.
Trong thí nghiệm này, chúng tôi nghiên cứu ảnh hưởng của phương
pháp cân bằng lớp đến kết quả của các bộ phân loại học máy đã được áp
dụng trong thí nghiệm trước. Kết quả của thí nghiệm này được đưa ra
trong Bảng VI. Chúng ta có thể thấy rằng hiệu suất của SVM, hồi quy
logistic và phân loại SGD đã được cải thiện. Tuy nhiên, hiệu suất của
XGBoost và Random Forest vẫn tốt hơn nhiều so với hiệu suất của các
bộ phân loại khác. Mặt khác việc cân bằng giai cấp

(IJACSA) Tạp chí quốc tế về ứng dụng và khoa học máy tính tiên tiến,
Tập. 11, số 7, 2020
BẢNG V. SO SÁNH XGBOOST VỚI CÁC PHÂN LOẠI KHÁC.
Độ chính Độ chính xác Nhớ lại biện pháp F1

xác RandomForest 0,955 (0,008) 0,936 (0,044) 0,743 (0,053) 0,827 (0,033)
SVM 0,827 (0,021) 0,351 (0,065) 0,225 (0,056) 0,272 (0,058)
XGboost 0,956 (0,009) 0,924 (0,052) 0,752 (0,057) 0,829 (0,052)
Hồi quy logistic 0,864 (0,016) 0,618 (0,154) 0,801 0,204 (0,042) 0,302 (0,052)
SGD (0,193) 0,552 (0,208) 0,225 (0,275) 0,223 (0,120)
Hình 2. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của Bộ lấy mẫu ngẫu nhiên lên các thước đo đánh giá của XGBoost.
Hình 3. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của SMOTE đối với các thước đo đánh giá của XGBoost.

(IJACSA) Tạp chí quốc tế về ứng dụng và khoa học máy tính tiên tiến,
Tập. 11, số 7, 2020
Hình 4. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của ADASYN đến các thước đo đánh giá của XGBoost.
Hình 5. Ảnh hưởng của tỷ lệ chiến lược lấy mẫu của BorderLine SMOTE đối với các biện pháp đánh giá của XGBoost.
BẢNG VI. SO SÁNH XGBOOST VỚI CÁC PHƯƠNG PHÁP PHÂN LOẠI KHÁC SAU KHI ÁP DỤNG PHƯƠNG PHÁP TRỌNG LƯỢNG LỚP.
Độ chính Độ chính xác Nhớ lại thước đo F1

Rừng ngẫu nhiên xác 0,955 (0,008) 0,902 0,770 (0,057) 0,830 (0,044)
SVM (0,042) 0,768 (0,023) 0,286 0,398 (0,078) 0,330 (0,043)
XGboost (0,036) 0,948 (0,009) 0,822 (0,059)
0,818 (0,048) 0,819 (0,045)
Hồi quy logistic 0,773 (0,014) 0,366 (0,048) 0,519 0,770 (0,037) 0,495 (0,048)
SGD (0,247) 0,230 (0,120) 0,608 (0,294) 0,273 (0,050)

(IJACSA) Tạp chí quốc tế về ứng dụng và khoa học máy tính tiên tiến, Tập. 11,
số 7, 2020
NGƯỜI GIỚI THIỆU [12] B. Zhu, B. Baesens và SK vanden Broucke, “Một so sánh thực nghiệm về các kỹ
thuật giải quyết vấn đề mất cân bằng giai cấp trong dự đoán tỷ lệ rời bỏ,”
[1] AK Ahmad, A. Jafar và K. Aljoumaa, “Dự đoán tỷ lệ rời bỏ khách hàng trong lĩnh
Khoa học thông tin, tập. 408, trang 84–99, 2017.
vực viễn thông bằng cách sử dụng máy học và phân tích mạng xã hội trong nền
[13] A. Amin, S. Anwar, A. Adnan, M. Nawaz, N. Howard, J. Qadir, A. Hawalah và A.
tảng dữ liệu lớn,” bản in trước arXiv arXiv:1904.00690, 2019.
Hussain, “So sánh các kỹ thuật lấy mẫu quá mức để xử lý vấn đề mất cân bằng
[2] C.-P. Wei và I.-T. Chiu, “Biến chi tiết cuộc gọi viễn thông thành dự đoán rời
lớp: Khách hàng rời bỏ nghiên cứu trường hợp dự đoán,” IEEE Access, tập. 4,
rạc: phương pháp khai thác dữ liệu,” Hệ thống chuyên gia với các ứng dụng,
trang 7940–7957, 2016.
tập. 23, không. 2, trang 103–112, 2002.
[14] A. Hanif và N. Azhar, “Giải quyết sự mất cân bằng giữa các lớp và lựa chọn tính
[3] H. Faris, “Mô hình mạng lưới thần kinh thông minh bầy đàn lai để dự đoán tỷ lệ
năng trong tập dữ liệu về tỷ lệ rời bỏ khách hàng,” tại Hội nghị Quốc tế về
rời bỏ khách hàng và xác định các yếu tố ảnh hưởng,”
Biên giới Công nghệ Thông tin (FIT) năm 2017. IEEE, 2017, trang 82–86.
Thông tin, tập. 9, không. 11, tr. 288, 2018.
[15] H. Faris, “Các quy tắc làm sạch khu vực lân cận và tối ưu hóa nhóm hạt để dự đoán
[4] V. Mahajan, M. Richa và M. Renuka, “Xem xét các yếu tố ảnh hưởng đến việc rời bỏ
hành vi rời bỏ của khách hàng trong ngành viễn thông,” Tạp chí Khoa học và
khách hàng trong lĩnh vực viễn thông,” Tạp chí Quốc tế về Kỹ thuật và Chiến
Công nghệ Tiên tiến Quốc tế, tập. 68, không. 1, trang 11–22, 2014.
lược Phân tích Dữ liệu, tập. 9, không. 2, trang 122–144, 2017.
[5] A. Rodan, A. Fayyoumi, H. Faris, J. Alsakran và O. Al-Kadi, “Học tương quan

[16] A. Idris, A. Khan và YS Lee, “Dự đoán tỷ lệ rời bỏ thông minh trong viễn thông:
tiêu cực để dự đoán tỷ lệ rời bỏ khách hàng: Một nghiên cứu so sánh,” Tạp chí
sử dụng lựa chọn tính năng mrmr và phân loại tập hợp dựa trên rotboost,” Trí
Thế giới Khoa học, tập. 2015, 2015.
thông minh ứng dụng, tập. 39, không. 3, trang 659–672, 2013.
[6] K. Coussement, DF Benoit và D. Van den Poel, “Cải thiện việc ra quyết định tiếp
[17] SA Qureshi, AS Rehman, AM Qamar, A. Kamal và A. Rehman, “Mô hình dự đoán tỷ lệ
thị trong bối cảnh dự đoán tỷ lệ rời bỏ khách hàng bằng cách sử dụng các mô
rời mạng của thuê bao viễn thông sử dụng máy học” trong Hội nghị quốc tế lần
hình cộng gộp tổng quát,” Hệ thống chuyên gia với các ứng dụng, tập. 37, không.
thứ 8 về Quản lý thông tin kỹ thuật số (ICDIM 2013). IEEE, 2013, trang 131–136.
3, trang 2132–2143, 2010.
[7] A. Sharma và P. Prabin, “Một cách tiếp cận dựa trên mạng thần kinh để dự đoán sự
[18] NV Chawla, KW Bowyer, LO Hall và WP Kegelmeyer, “Smote: kỹ thuật lấy mẫu quá mức
thay đổi của khách hàng đối với các dịch vụ mạng di động,” Tạp chí Quốc tế về
của thiểu số tổng hợp,” Tạp chí nghiên cứu trí tuệ nhân tạo, tập. 16, trang
Ứng dụng Máy tính, tập. 27, không. 11, trang 26–31, 2011.
321–357, 2002.
[8] J. Burez và D. Van den Poel, “Xử lý sự mất cân bằng giai cấp trong dự đoán tỷ lệ
[19] H. He, Y. Bai, EA Garcia và S. Li, “Adasyn: Phương pháp lấy mẫu tổng hợp thích
rời bỏ khách hàng,” Hệ thống chuyên gia với các ứng dụng, tập. 36, không. 3,
ứng cho việc học không cân bằng,” trong Hội nghị chung quốc tế của IEEE về
trang 4626–4636, 2009.
Mạng thần kinh năm 2008 (Đại hội thế giới về trí tuệ tính toán của IEEE) .
[9] T. Vafeiadis, KI Diamantaras, G. Sarigiannidis và KC Chatzisav-vas, “So sánh IEEE, 2008, trang 1322–1328.
các kỹ thuật học máy để dự đoán tỷ lệ rời bỏ khách hàng,” Lý thuyết và thực
[20] H. Han, W.-Y. Wang và B.-H. Mao, “Borderline-smote: một phương pháp lấy mẫu quá
hành mô hình hóa mô phỏng, tập. 55, trang 1–9, 2015.
mức mới trong việc học tập dữ liệu không cân bằng,” tại Hội nghị quốc tế về
điện toán thông minh. Springer, 2005, trang 878–887.
[10] A. Idris, M. Rizwan và A. Khan, “Dự đoán xáo trộn trong viễn thông bằng cách sử [21] T. Chen, T. He, M. Benesty, V. Khotilovich và Y. Tang, “Xgboost: tăng cường độ
dụng rừng ngẫu nhiên và cân bằng dữ liệu dựa trên pso kết hợp với các chiến dốc cực cao,” phiên bản gói R 0.4-2, trang 1–4, 2015.
lược lựa chọn tính năng khác nhau,” Máy tính & Kỹ thuật Điện, tập. 38, không.
[22] T. Chen và C. Guestrin, “Xgboost: Một hệ thống tăng cường cây có thể mở rộng,”
6, trang 1808–1819, 2012.
trong Kỷ yếu của hội nghị quốc tế acm sigkdd lần thứ 22 về khám phá kiến thức
[11] A. Idris, A. Iftikhar và Z. ur Rehman, “Dự đoán tỷ lệ rời bỏ thông minh cho viễn và khai thác dữ liệu. ACM, 2016, trang 785–794.
thông bằng cách sử dụng phương pháp học gp-adaboost và lấy mẫu dưới pso,” Máy
tính cụm, tập. 22, không. 3, trang 7241–7255, 2019.

Paper 85-Predicting Customer Retention Using XGBoost

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Paper 85-Predicting Customer Retention Using XGBoost

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Dự đoán khả năng giữ chân khách hàng bằng XGBoost và

Atallah M. AL-Shatnwai1 Khoa Hệ Mohammad Faris2

Jordan Amman, Jordan

www.ijacsa.thesai.org 704 | Trang

Một trong những vấn đề chính với dự đoán rời bỏ là sự phân bổ

Các nghiên cứu vấn đề mất cân bằng dữ liệu

www.ijacsa.thesai.org 705 | Trang

dự đoán sẽ được mô tả.

p mới = pi + rj × diffj (4)

www.ijacsa.thesai.org 706 | Trang

IV. XGBOOST VỚI OVERSAMPLING

Kế hoạch quốc tế Tổng số cuộc gọi đêm

nhiên. Khung đề xuất có các bước sau:

Tổng số cuộc gọi trong ngày Tổng phí quốc tế

Tổng phí ngày Số cuộc gọi chăm sóc khách hàng

www.ijacsa.thesai.org 707 | Trang

TP VII. THÍ NGHIỆM VÀ KẾT QUẢ

www.ijacsa.thesai.org 708 | Trang

năng tối đa: ['auto', 'sqrt']

tỷ lệ chính xác từ khoảng 93% xuống còn khoảng 85%.

Trình phân loại Thông số tốt nhất

VIII. KẾT LUẬN VÀ CÁC CÔNG TRÌNH TƯƠNG LAI

www.ijacsa.thesai.org 709 | Trang

BẢNG V. SO SÁNH XGBOOST VỚI CÁC PHÂN LOẠI KHÁC.

Độ chính Độ chính xác Nhớ lại biện pháp F1

www.ijacsa.thesai.org 710 | Trang

Độ chính Độ chính xác Nhớ lại thước đo F1

www.ijacsa.thesai.org 711 | Trang

[5] A. Rodan, A. Fayyoumi, H. Faris, J. Alsakran và O. Al-Kadi, “Học tương quan

www.ijacsa.thesai.org 712 | Trang

You might also like