You are on page 1of 13

5.

Evaluation of direct marketing models (đánh giá các mô hình Marketing trực tiếp)
There are various performance evaluation criteria for judging the output of direct marketing
models. Có nhiều tiêu chí đánh giá hiệu suất khác nhau để đánh giá đầu ra của các mô hình Marketing trực tiếp.

The process of model build-ing and evaluation for direct marketing involves two steps, training
and testing. Quá trình xây dựng và đánh giá mô hình Marketing trực tiếp bao gồm hai bước, đào tạo và thử
nghiệm.

Two different data sets are used in the two steps. Hai bộ dữ liệu khác nhau được sử dụng trong hai bước.

The training data set is used for building the direct marketing model and the validation data set
with unknown outcomes is used for checking the performance of the predictive direct
marketing model. Bộ dữ liệu đào tạo được sử dụng để xây dựng mô hình Marketing trực tiếp và bộ dữ liệu đánh
giá với các kết quả không xác định được sử dụng để kiểm tra khả năng dự đoán của thuật toán đối với những dữ liệu
chưa từng nhìn thấy trước đó trong Marketing trực tiếp.

In this section we focus on the criteria that are used to evaluate direct marketing models from a
managerial perspective, and the criteria used are accuracy and profitability. Trong phần này, chúng
tôi tập trung vào các tiêu chí được sử dụng để đánh giá các mô hình Marketing trực tiếp từ góc độ quản lý và các tiêu
chí được sử dụng là độ chính xác và lợi nhuận.

If no specific information is given, we are discussing the performance of direct marketing


models on validation data sets. Nếu không có thông tin cụ thể nào được đưa ra, chúng tôi đang thảo luận về
hiệu suất của các mô hình Marketing trực tiếp trên các bộ dữ liệu xác thực.

5.1. Determination of accuracy of direct marketing models (đánh giá độ chính xác của các mô
hình Marketing trực tiếp)
When the accuracy of the models is evaluated, a confusion matrix such as the one shown in
Table 6 is produced. Khi độ chính xác của các mô hình được đánh giá, một ma trận Confusion ( ma trận nhầm lẫn)
chẳng hạn như cái được hiển thị trong Bảng 6 được tạo ra.

In Table 6, ‘Actual’ stands for the value in real situations whereas ‘Prediction’ represents the
outcome of direct marketing models. Trong Bảng 6, 'Actual' là giá trị trong các tình huống thực tế trong khi
'Prediction' đại diện cho kết quả của các mô hình Marketing trực tiếp.
From the con-fusion matrix, several accuracy measures can be developed. Từ ma trận Confusion (ma
trận nhầm lẫn), một số thước đo độ chính xác có thể được phát triển.

A in the confusion matrix is sometimes referred to as true positive and it represents the number
of correctly identified actual responders. A trong ma trận Confusion (ma trận nhầm lẫn) đôi khi được gọi là
True positive (dương tính thật) và nó đại diện cho số người trả lời thực tế được xác định là chính xác.//ví dụ: que test
covid 2 vạch nghĩa là bạn bị covid và thực tế bạn bị covid.

B is known as false negative or the number of actual responders identified as non-responders.


B được gọi là False negative (âm tính giả) hoặc là số người trả lời thực tế được xác định là người không trả lời. //vd:
bạn bị covid nhưng test nhanh k hiển thị bạn bị covid.

C is referred to as false positive which represents the number of actual non-responders


identified as responders. C được gọi là False posotive (dương tính giả) đại diện cho số người không phải là
người trả lời nhưng được phát hiện là đi trả lời. // vd: que test nhanh hiện ra 2 vạch nhưng thực tế bạn k bị covid.

D is called true negative or the number of correctly identified actual non-responders. D được gọi
là True negative (Âm tính thật) hoặc số người trả lời chính xác nhưng thực tế không phải là người trả lời. //vd: bạn k
có dính covid và test nhanh cx nói rằng bạn k dính.

One measure of accuracy is the ratio of correct identification, or PCC (Percentage Correctly
Classified instances), which is defined as the ratio of A + D (sum of diagonal) over the total (i.e. A
+ B + C + D). Một thước đo độ chính xác là tỷ lệ nhận dạng chính xác hoặc PCC (Tỷ lệ phần trăm các trường hợp
được phân loại chính xác), được định nghĩa là tỷ lệ A + D (tổng đường chéo) trên tổng số (tức là A + B + C + D).

There are several studies that use a confusion matrix to evaluate models or compare between
different models. Có một số nghiên cứu sử dụng ma trận nhầm lẫn để đánh giá các mô hình hoặc so sánh giữa
các mô hình khác nhau.

Kaefer et al. (2005) observed higher accuracy for both ANN and Logit models using purchase
information in addition to demographic information. Kaefer và cộng sự (2005) quan sát thấy độ chính xác
cao hơn cho cả 2 mô hình ANN và Logit sử dụng thông tin mua hàng ngoài thông tin nhân khẩu học.

Their results showed that ANN performed better than Logit with an average classification
advantage of 21.5% over 20 purchases. Kết quả của họ cho thấy rằng ANN hoạt động tốt hơn Logit với lợi
thế phân loại trung bình là 21,5% trên 20 giao dịch mua.

Suh et al. (2004) compared the misclassification rates of DT, ANN, LR, and a hybrid model of the
three. Suh et al. (2004) đã so sánh tỷ lệ phân loại sai của DT, ANN, LR và một mô hình lai của ba.
The result showed the hybrid model had the lowest misclassification rate. Kết quả cho thấy mô hình
hybrid có tỷ lệ phân loại sai thấp nhất.
A problem that can occur when using PCC as a measure of accuracy is that it does not say
whether the model is able to determine true positives and true negatives equally well. Một vấn đề
có thể xảy ra khi sử dụng PCC làm thước đo độ chính xác là nó không cho biết liệu mô hình có thể xác định dương
tính thật và âm tính thực sự tốt như nhau hay không.

For example, Gonul et al. (2000) showed that their model had PCC of 81%, but the ratio of true
positive instances to total was less than 15%. This implied that their model was much better at
identifying true negatives. Ví dụ, Gonul et al. (2000) cho thấy mô hình của họ có PCC là 81%, nhưng tỷ lệ các
trường hợp dương tính thực sự trên tổng số là dưới 15%. Điều này ngụ ý rằng mô hình của họ tốt hơn nhiều trong
việc xác định âm tính thực sự

However, only the knowledge of PCC could not reflect that. Tuy nhiên, chỉ có kiến thức về PCC không thể
phản ánh điều đó.

A typical measure of classification accuracy like PCC assumes symmetric misclassification costs
for false positive and false negative predictions. Một thước đo điển hình về độ chính xác phân loại như PCC
giả định chi phí phân loại sai đối xứng cho các dự đoán dương tính giả và âm tính giả.

However, in direct marketing, the cost of mis-classification is usually asymmetric. Tuy nhiên, trong
Marketing trực tiếp, chi phí phân loại sai thường không đối xứng.

To deal with this problem, some researchers have included a coefficient in their model that
represented the ratio of two kinds of misclassification costs and made the loss function more
general (Bult, 1993; Bult and Wittink, 1996). Để giải quyết vấn đề này, một số nhà nghiên cứu đã bao gồm
một hệ số trong mô hình của họ đại diện cho tỷ lệ của hai loại chi phí phân loại sai và làm cho hàm tổn thất tổng
quát hơn (Bult, 1993; Bult và Wittink, 1996).

Bult (1993) compared a discriminant analysis model with a Logit model and showed that for
both models asymmetric loss cases could cost less money than symmetric loss cases. Bult (1993)
đã so sánh mô hình phân tích biệt thức tuyến tính với mô hình Logit và chỉ ra rằng đối với cả hai mô hình, các trường
hợp tổn thất bất đối xứng có thể tốn ít tiền hơn các trường hợp tổn thất đối xứng.

Bult and Wittink (1996) further accommodated heterogeneity into the asymmetric loss
function. Bult và Wittink (1996) tiếp tục điều chỉnh sự không đồng nhất vào hàm mất đối xứng.

They reported that the accuracy of the heterogeneous asymmetric loss function model was not
significantly higher but the heterogeneous asymmetric loss function model was more capable of
identifying customers who actually re-sponded. Họ báo cáo rằng độ chính xác của mô hình chức năng hàm
thất thoát không đối xứng không đồng nhất không cao hơn đáng kể nhưng mô hình chức năng tổn thất bất đối xứng
không đồng nhất có nhiều khả năng xác định khách hàng thực sự suy ngẫm lại.

Levin and Zahavi (1998) observed that the linear regres-sion model tended to ‘over-predict’
which resulted in false positives whereas the Tobit model tended to ‘under-predict’ which
resulted in false negatives. Levin và Zahavi (1998) đã quan sát thấy rằng mô hình hồi quy tuyến tính có xu
hướng 'dự đoán quá mức' dẫn đến dương tính giả trong khi mô hình Tobit có xu hướng 'dự đoán thấp' dẫn đến âm
tính giả.
The question still remains: what are the best criteria to compare quantitative models. In general
two mea-sures: recall and precision, are usually used. Câu hỏi vẫn còn: tiêu chí tốt nhất để so sánh các
mô hình định lượng là gì. Nói chung, hai biện pháp: thu hồi và độ chính xác, thường được sử dụng.

Recall, which is the ratio of A to A + C, measures the percentage of true positives for all
predicted positives. Nhớ lại, là tỷ lệ của A đến A + C, đo lường tỷ lệ phần trăm dương tính thực sự cho tất cả các
dương tính được dự đoán.

On the other hand, precision or the ratio of A to A + B measures the percentage of true positives
identified in all actual positives. Mặt khác, độ chính xác hoặc tỷ lệ A đến A + B đo lường tỷ lệ phần trăm
dương tính thực sự được xác định trong tất cả các dương tính thực tế.

Recall, which is also known as response rate in direct marketing, is usually given more
importance since solici-tation cost is usually much smaller than profit generated by cus-tomers.
Recall, còn được gọi là tỷ lệ phản hồi trong Marketing trực tiếp, thường được coi trọng hơn vì chi phí chào mời
thường nhỏ hơn nhiều so với lợi nhuận được tạo ra bởi khách hàng.
Response rate is a popular measure that is used in traditional direct mail marketing applications
(Haughton and Oulabi, 1997; Levin and Zahavi, 1998). Tỷ lệ phản hồi là một thước đo phổ biến được sử
dụng trong các ứng dụng Marketing qua thư trực tiếp truyền thống (Haughton và Oulabi, 1997; Levin và Zahavi,
1998).

Haughton and Oulabi (1997) compared the performance of a CHAID model and a CART model in
terms of response rate. Haughton và Oulabi (1997) đã so sánh hiệu suất của mô hình CHAID và mô hình CART
về tỷ lệ phản hồi.

Their results showed that the per-formance of the two models were remarkably similar. Kết quả
cho thấy tính theo hình thức của hai mô hình tương tự nhau đáng kể.

Levin and Zahavi (1998) compared the response rate of a Logit model, a Tobit model, a linear
regression model, and a two stage model. Levin và Zahavi (1998) đã so sánh tỷ lệ đáp ứng của mô hình
Logit, mô hình Tobit, mô hình hồi quy tuyến tính và mô hình hai giai đoạn.

Their results showed that the Logit model performed the best. Những kết quả của họ cho thấy mô hình
Logit hoạt động tốt nhất.

Response rate can also be used to evaluate models developed exclusively for new direct
marketing channels. Tỷ lệ phản hồi cũng có thể được sử dụng để đánh giá các mô hình được phát triển dành
riêng cho các kênh Marketing trực tiếp mới.

Kwon and Moon (2001) used response rate as the measure of performance for direct email
marketing. Kwon và Moon (2001) đã sử dụng tỷ lệ phản hồi làm thước đo hiệu suất cho marketing email trực tiếp.

Their model had a 20% higher response rate compared to random targeting on average. Mô hình
của họ có tỷ lệ phản hồi cao hơn 20% so với nhắm mục tiêu ngẫu nhiên trung bình
Some researchers have used response rate to evaluate the per-formance of models for multiple
solicitation problems. Một số nhà nghiên cứu đã sử dụng tỷ lệ phản hồi để đánh giá mức độ phù hợp của các
mô hình cho nhiều vấn đề chào mời.

Piersma and Jonker (2004) compared the performance of their Markov decision model that
considered mailing frequency with the model proposed by Bitran and Mondschein (1996) and
found that their model’s response rates were not high enough. Piersma và Jonker (2004) đã so sánh
hiệu suất của mô hình quyết định Markov của họ xem xét tần suất gửi thư với mô hình được đề xuất bởi Bitran và
Mondschein (1996) và thấy rằng tỷ lệ phản hồi của mô hình của họ (Markiv) không đủ cao.

A relatively new use of response rate can be found in the evaluation of recommen-dation
systems. Weng and Liu (2004) used response rate as the measure to compare their
recommendation methods, which com-bined customer profile and customer cluster profile
models, with the original method using customer profile on their own. Một cách sử dụng tương đối
mới về tỷ lệ đáp ứng có thể được tìm thấy trong việc đánh giá các hệ thống khuyến nghị. Weng và Liu (2004) đã sử
dụng tỷ lệ phản hồi làm thước đo để so sánh các phương pháp đề xuất của họ, kết hợp các mô hình hồ sơ khách
hàng và hồ sơ cụm khách hàng, với phương pháp ban đầu sử dụng hồ sơ khách hàng của riêng họ.

Response rate was defined by the authors as the ratio of the number of products bought by the
customers to the number of products recommended to customers. Tỷ lệ phản hồi được các tác giả
định nghĩa là tỷ lệ giữa số lượng sản phẩm mà khách hàng mua với số lượng sản phẩm được giới thiệu cho khách
hàng.

The results showed that the combined method exhibited highest values for recall and precision.
Kết quả cho thấy phương pháp kết hợp thể hiện giá trị thu hồi và độ chính xác cao nhất.

Response rate can also be measured in terms of cumulative gains charts that are also known as
lift curves or ‘banana charts’. Tỷ lệ phản hồi cũng có thể được đo bằng biểu đồ lợi nhuận tích lũy còn được gọi
là đường cong nâng hoặc 'banana charts'.

A typical cumulative gains chart is shown in Fig. 2. The x-axis represents deciles while the y-axis
represents response rate. Biểu đồ lợi nhuận tích lũy điển hình được hiển thị trong Hình 2. Trục x đại diện cho số
thập phân trong khi trục y đại diện cho tốc độ đáp ứng.

This chart plots cumulative response rate over deciles of target customers. Biểu đồ này biểu thị tỷ lệ
phản hồi tích lũy trên deciles của khách hàng mục tiêu.

The higher the curve the better is the model in terms of response rate. Đường cong càng cao thì mô
hình càng tốt về tỷ lệ phản hồi.

Ha et al. (2005) reported that ANN models outperformed Logit models in terms of lift curve of
response rate and bagging ANN models outperformed single ANN models. Ha et al. (2005) báo cáo
rằng các mô hình ANN vượt trội hơn các mô hình Logit về đường cong nâng của tốc độ đáp ứng và các mô hình
bagging ANN vượt trội hơn các mô hình ANN đơn lẻ.
Ling and Li (1998) illustrated the performance of boosted Naive Bayes and boosted DT in
terms of response rate and lift curve. It was found that over-sampling did not affect the
performance of Naive Bayes but increased the response rate of DT. Ling and Li (1998) minh họa hiệu
suất của Naive Bayes được tăng cường và thúc đẩy DT trong Điều khoản về tỷ lệ phản hồi và đường cong nâng. Nó
đã được tìm thấy rằng lấy mẫu quá mức không ảnh hưởng đến hiệu suất của Naive Bayes nhưng làm tăng tỷ lệ đáp
ứng của DT.

One problem that is encountered with respect to lift curves is that it is difficult to tell whether
one lift curve is higher than an other because two curves can intersect and this implies that at
some deciles one model has higher response rate than the other but the relationship reverses
at other deciles. Một vấn đề gặp phải liên quan đến đường cong nâng là rất khó để biết liệu một đường cong
nâng có cao hơn đường cong kia hay không vì hai đường cong có thể giao nhau và điều này ngụ ý rằng tại Một số
deciles một mô hình có tỷ lệ phản hồi cao hơn mô hình khác nhưng mối quan hệ đảo ngược ở các deciles khác.

Thus it is more meaningful to compare cumulative response rate at different deciles. Do đó, sẽ có
ý nghĩa hơn khi so sánh tỷ lệ phản hồi tích lũy ở các decile khác nhau.

Prinzie and Van den Poel (2005) compared their constrained optimization approach with the
unconstrained approach and observed that the constrained model outperformed the
unconstrained one up to a mailing depth of 48%. Kim and Street (2004) exhibited the
performance of their ensemble (GA/ANN) model using a lift curve and demonstrated that the
ensemble model had best performance at five different target points and second best
performance at one particular target point. The ensemble model also performed better than
single ANN models for the top deciles of targeted customers but was not as good as single ANN
models at middle deciles. Prinzie và Van den Poel (2005) đã so sánh phương pháp tối ưu hóa hạn chế của họ với
cách tiếp cận không bị hạn chế và quan sát thấy rằng mô hình bị ràng buộc hoạt động tốt hơn mô hình không bị hạn
chế lên đến độ sâu gửi thư là 48%. Kim và Street (2004) đã trưng bày hiệu suất của mô hình hòa tấu (GA / ANN) của
họ bằng cách sử dụng đường cong nâng và chứng minh rằng mô hình hòa tấu có hiệu suất tốt nhất tại năm điểm
mục tiêu khác nhau và hiệu suất tốt thứ hai tại một điểm mục tiêu cụ thể. Mô hình đồng bộ cũng hoạt động tốt hơn
các mô hình ANN đơn lẻ cho các deciles hàng đầu của khách hàng mục tiêu nhưng không tốt bằng các mô hình ANN
đơn lẻ ở deciles giữa.

The authors remarked that oversearching was responsible for the inferior performance of their
model for middle target points. Các tác giả nhận xét rằng việc tìm kiếm quá mức chịu trách nhiệm cho hiệu
suất kém hơn của mô hình của họ đối với các điểm mục tiêu trung bình.

Kim et al. (2005) found that their ANN model performed best for the top 20% of targeted
customers. Kim et al. (2005) nhận thấy rằng mô hình ANN của họ hoạt động tốt nhất cho 20% khách hàng mục
tiêu hàng đầu.

The value of lift can also be used to evaluate the accuracy of models. Giá trị của thang máy cũng có
thể được sử dụng để đánh giá độ chính xác của các mô hình.
Lift is calculated by computing the ratio of response rate at top deciles achieved by direct
models to the response rate achieved by random targeting and represented by the blue line in
Fig. 2.
Lift được tính bằng cách tính tỷ lệ tỷ lệ phản hồi ở các decile hàng đầu đạt được bởi các mô hình trực tiếp so với tỷ lệ
phản hồi đạt được bằng nhắm mục tiêu ngẫu nhiên và được biểu thị bằng đường màu xanh lam trong Hình 2.
The value of lift can be used to determine the improvement obtained using direct marketing
models over random marketing. Giá trị của thang máy có thể được sử dụng để xác định sự cải thiện thu được
bằng cách sử dụng các mô hình Marketing trực tiếp so với Marketing ngẫu nhiên.

Cui et al. (2006) used lift values to compare between BNN augmented by EP, ANN, CART, and
Latent class models. The highest lift value was obtained by the BNN augmented by EP at top
deciles. Cui et al. (2006) đã sử dụng các giá trị nâng để so sánh giữa BNN được tăng cường bởi các mô hình lớp EP,
ANN, CART và Latent. Giá trị nâng cao nhất thu được bởi BNN được tăng thêm bởi EP ở các deciles hàng đầu.

To distinguish between false positives and false negatives it is important to examine the
accuracy of a model used in direct marketing using an ROC curve. Để phân biệt giữa dương tính giả và
âm tính giả, điều quan trọng là phải kiểm tra tính chính xác của mô hình được sử dụng trong Marketing trực tiếp
bằng cách sử dụng đường cong ROC.

A sample ROC curve is shown in Fig. 3. Một đường cong ROC mẫu được hiển thị trong Hình 3.

The ROC curve is usually plotted as a two-dimensional graph representing sensitivity along the
y-axis and 1-specificity along the x-axis for various classification threshold values. Đường cong ROC
thường được vẽ dưới dạng đồ thị hai chiều biểu thị độ nhạy dọc theo trục y và độ đặc hiệu 1 dọc theo trục x cho các
giá trị ngưỡng phân loại khác nhau.
Sensitivity is the ratio of true positives over all actual positives while specificity is the ratio of
true negatives over all actual negatives and 1-specificity is the ratio of false positives over all
actual negatives. Độ nhạy là tỷ lệ dương tính thật trên tất cả các dương tính thực tế trong khi độ đặc hiệu là tỷ lệ
âm tính thực sự trên tất cả các âm tính thực tế và độ đặc hiệu 1 là tỷ lệ dương tính giả trên tất cả các âm tính thực tế.

The higher the ROC curve the better is the model. One measure related to the ROC curve is
AUROC which stands for Area under ROC Curve. Đường cong ROC càng cao thì mô hình càng tốt. Một
thước đo liên quan đến đường cong ROC là AUROC là viết tắt của Khu vực dưới Đường cong ROC.

A larger AUROC represents a better model. Một AUROC lớn hơn đại diện cho một mô hình tốt hơn.

Sometimes the ROC curve is plotted with 1-sensitivity along the y-axis to study the trade-off
between false positives and false negatives. Đôi khi đường cong ROC được vẽ với độ nhạy 1 dọc theo trục y
để nghiên cứu sự cân bằng giữa dương tính giả và âm tính giả.

Ha et al. (2005) compared the performance of bagging ANN, single ANN, and Logit using both
confusion matrix and ROC curve. Ha et al. (2005) đã so sánh hiệu suất của việc đóng bao ANN, ANN đơn và
Logit bằng cách sử dụng cả ma trận nhầm lẫn và đường cong ROC.

Their results showed that the bagging ANN performed best in worst and median cases and its
performance was similar to single ANN but better than Logit for the best case. Kết quả của họ cho
thấy ANN đóng bao hoạt động tốt nhất trong các trường hợp xấu nhất và trung bình và hiệu suất của nó tương tự
như ANN đơn nhưng tốt hơn Logit cho trường hợp tốt nhất.

Viaene et al. (2001a) observed that elimination of redundant and irrelevant inputs could reduce
the complexity of models significantly without degrading the predictive generalization ability
measured in terms of PCC and AUROC. Viaene et al. (2001a) quan sát thấy rằng việc loại bỏ các đầu vào dư
thừa và không liên quan có thể làm giảm đáng kể độ phức tạp của các mô hình mà không làm giảm khả năng khái
quát hóa dự đoán được đo bằng PCC và AUROC.

Baesens et al. (2002) compared the performance of Logit, linear discriminant analysis, quadratic
discriminant analysis, and Bayesian ANN models using PCC and AUROC and found that the
Bayesian ANN outperformed others in terms of both PCC and AUROC. Baesens et al. (2002) đã so sánh
hiệu suất của Logit, phân tích phân biệt tuyến tính, phân tích phân biệt bậc hai và các mô hình Bayesian ANN sử dụng
PCC và AUROC và thấy rằng ANN Bayes vượt trội hơn các ANN khác về cả PCC và AUROC.

5.
2. Profitability of models (Khả năng sinh lời của các mô hình)
Profitability measures the ability of the direct marketing model to generate profits or revenues.
Lợi nhuận đo lường khả năng của mô hình Marketing trực tiếp để tạo ra lợi nhuận hoặc doanh thu.

Each direct marketing solicitation has a cost associated with it and generates revenues. Mỗi lời
chào mời Marketing trực tiếp có một chi phí liên quan đến nó và tạo ra doanh thu

The revenue obtained from each customer can be predicted directly or indirectly. Doanh thu thu
được từ mỗi khách hàng có thể được dự đoán trực tiếp hoặc gián tiếp .

Models that score customers in terms of potential revenues are known as direct approaches,
such as a Tobit model. Các mô hình chấm điểm khách hàng về doanh thu tiềm năng được gọi là phương pháp
tiếp cận trực tiếp, chẳng hạn như mô hình Tobit.
There is also the indirect approach that classifies customers as responders or non-responders
using a binary value and then calculates expected revenues from them, such as a two stage
model. Ngoài ra còn có cách tiếp cận gián tiếp phân loại khách hàng là người trả lời hoặc người không trả lời bằng
cách sử dụng giá trị nhị phân và sau đó tính toán doanh thu dự kiến từ họ, chẳng hạn như mô hình hai giai đoạn.

Both Van der Sheer (1998) and Levin and Zahavi (1998) compared two stage models and Tobit
model and showed that the former performed better in terms of revenues. Cả Van der Sheer (1998)
và Levin và Zahavi (1998) đều so sánh hai mô hình sân khấu và mô hình Tobit và cho thấy rằng mô hình trước đây
hoạt động tốt hơn về doanh thu.
The relationship between revenue and cost can influence profitability. Mối quan hệ giữa doanh thu và
chi phí có thể ảnh hưởng đến lợi nhuận

Kim and Street (2004) compared the expected net profit generated by ANN, GA/ANN ensemble
model, and random targeting under different mailing costs. Kim và Street (2004) đã so sánh lợi nhuận
ròng dự kiến được tạo ra bởi mô hình đồng bộ ANN, GA / ANN và nhắm mục tiêu ngẫu nhiên dưới các chi phí gửi
thư khác nhau.

It was found that when the mailing cost was low, even random targeting could generate a
positive profit. Nó đã được tìm thấy rằng khi chi phí gửi thư thấp, ngay cả nhắm mục tiêu ngẫu nhiên cũng có thể
tạo ra lợi nhuận tích cực.

However, when the mailing cost was high random targeting resulted in monetary loss. Tuy nhiên,
khi chi phí gửi thư cao, nhắm mục tiêu ngẫu nhiên dẫn đến tổn thất tiền tệ.

The GA/ANN ensemble model generated highest expected profit among the three methods
when the mailing cost was either high or low. Mô hình tổng hợp GA / ANN tạo ra lợi nhuận kỳ vọng cao
nhất trong số ba phương pháp khi chi phí gửi thư cao hoặc thấp.

Most direct marketing models assume that the cost of each solicitation and the revenue each
customer can generate are homogenous across all customers. Hầu hết các mô hình Marketing trực tiếp
giả định rằng chi phí của mỗi lời chào mời và doanh thu mà mỗi khách hàng có thể tạo ra là đồng nhất trên tất cả các
khách hàng.

However in real life this assumption is not always true. Tuy nhiên, trong cuộc sống thực, giả định này
không phải lúc nào cũng đúng.

Bult and Wittink (1996) reported a better performance in terms of profitability and accuracy
with the discriminant analysis model using the heterogeneous asymmetric loss function. Bult và
Wittink (1996) đã báo cáo hiệu suất tốt hơn về lợi nhuận và độ chính xác với mô hình phân tích phân biệt sử dụng
hàm tổn thất bất đối xứng không đồng nhất.

Discriminant analysis was used because it had better tolerance for heterogeneous distribution
of parameters compared to other models. Phân tích phân biệt đối xử đã được sử dụng vì nó có khả năng
chịu đựng tốt hơn đối với sự phân bố không đồng nhất của các tham số so với các mô hình khác.
In multiple mailing cases, researchers care more about the LTV of each customer or the revenue
that the customer can contribute in the long run. Trong nhiều trường hợp gửi thư, các nhà nghiên cứu
quan tâm nhiều hơn đến LTV của từng khách hàng hoặc doanh thu mà khách hàng có thể đóng góp trong thời gian
dài.

Bitran and Mondschein (1996) used simulation based on real data and examined the
performance of their model with budget constraints and inventory costs. Bitran và Mondschein
(1996) đã sử dụng mô phỏng dựa trên dữ liệu thực và kiểm tra hiệu suất của mô hình của họ với những hạn chế về
ngân sách và chi phí hàng tồn kho.

It was shown that multi-mailing outperformed single mailing in terms of revenues earned in the
long run. Nó đã được chỉ ra rằng gửi nhiều thư vượt trội hơn gửi thư đơn lẻ về doanh thu kiếm được trong thời
gian dài.

Piersma and Jonker (2004) showed that their Markov decision model which was an extension of
the model proposed by Bitran and Mondschein (1996) could generate higher net profit in the
long run. Piersma và Jonker (2004) đã chỉ ra rằng mô hình quyết định Markov của họ là một phần mở rộng của mô
hình được đề xuất bởi Bitran và Mondschein (1996) có thể tạo ra lợi nhuận ròng cao hơn trong thời gian dài.

Profit can be interpreted in other alternative ways. Lợi nhuận có thể được giải thích theo những cách thay
thế khác.

Gonul et al. (2000) chose marginal profit instead of general profit and showed that their hazard
model exhibited higher expected marginal profit than actual observed marginal profit. Gonul et al.
(2000) đã chọn lợi nhuận cận biên thay vì lợi nhuận chung và cho thấy mô hình rủi ro của họ thể hiện lợi nhuận cận
biên kỳ vọng cao hơn lợi nhuận cận biên thực tế quan sát được.

An indirect way of measuring profit would be to find out if the model was able to save cost. Một
cách gián tiếp để đo lường lợi nhuận sẽ là tìm hiểu xem mô hình có thể tiết kiệm chi phí hay không.

Bhattacharyya (1999) and Bhattacharyya (2000) measured the profitability of the proposed
GA/GP Pareto model by calculating the expected revenue that could be saved by retaining those
customers that were likely to churn. Bhattacharyya (1999) và Bhattacharyya (2000) đã đo lường lợi nhuận của
mô hình GA / GP Pareto được đề xuất bằng cách tính toán doanh thu dự kiến có thể được tiết kiệm bằng cách giữ
chân những khách hàng có khả năng rời đi.

The expected-revenue-saved was obtained by multiplying the churner capture rate by the
revenues generated at chosen deciles. Doanh thu dự kiến tiết kiệm được bằng cách nhân tỷ lệ bắt churner
với doanh thu được tạo ra tại các decile đã chọn.

The lift curve can also be used to illustrate the profitability of a model by plotting cumulative
profit over deciles of targeted customers. Đường cong nâng cũng có thể được sử dụng để minh họa lợi
nhuận của một mô hình bằng cách vẽ lợi nhuận tích lũy trên deciles của khách hàng mục tiêu.
Colombo and Jiang (1999) measured the performance of a two stage beta/gamma distribution
model in terms of the LTV that could be generated by the model. Colombo và Jiang (1999) đã đo lường
hiệu suất của mô hình phân phối beta / gamma hai giai đoạn về LTV có thể được tạo ra bởi mô hình.

Their results showed that the expected LTV lift curve was above the random selection line
with Gini index of 0.68. Kết quả của họ cho thấy đường cong nâng LTV dự kiến nằm trên đường chọn ngẫu
nhiên với chỉ số Gini là 0,68.

(Gini index is the ratio of the area between the lift curve and the 45 line to the area above the
line). (Chỉ số Gini là tỷ lệ diện tích giữa đường cong nâng và đường 45 với khu vực phía trên đường).

Malthouse (1999) showed that the ridge regression model was substantially more profitable at
key quantiles and also more stable than least square regression models. Malthouse (1999) đã chỉ ra
rằng mô hình hồi quy sườn núi có lợi hơn đáng kể ở các lượng tử chính và cũng ổn định hơn các mô hình hồi quy
bình phương tối thiểu.
5.3. Other measures (Một số biện pháp khác)
Some other measures have also been used to evaluate analytical models in direct marketing.
Một số biện pháp khác cũng đã được sử dụng để đánh giá các mô hình phân tích trong Marketing trực tiếp.

The complexity of the models is always a concern for researchers. Sự phức tạp của các mô hình luôn là
mối quan tâm của các nhà nghiên cứu.

Bult et al. (1997) employed the Consistent Akaike’s Information Criteria (CAIC) when selecting
between models that used mailing characteristics and customers’ characteristics as
independent variables. Bult et al. (1997) đã sử dụng Tiêu chí thông tin nhất quán của Akaike (CAIC) khi lựa chọn
giữa các mô hình sử dụng đặc điểm gửi thư và đặc điểm của khách hàng làm biến độc lập.

CAIC used an explicit trade-off between model complexity and accuracy. CAIC đã sử dụng một sự
đánh đổi rõ ràng giữa độ phức tạp và độ chính xác của mô hình.

Interested readers can refer to Bozdogan (1987) for more information about CAIC. Độc giả quan
tâm có thể tham khảo Bozdogan (1987) để biết thêm thông tin về CAIC.

Kim et al. (2005) evaluated the profitability of their model and also measured the complexity of
the model in terms of number of input attributes, computation time, and scalability. Kim et al.
(2005) đã đánh giá lợi nhuận của mô hình của họ và cũng đo lường độ phức tạp của mô hình về số lượng thuộc tính
đầu vào, thời gian tính toán và khả năng mở rộng.

Their ANN model performed well in terms of profitability but was computationally intensive. Mô
hình ANN của họ hoạt động tốt về lợi nhuận nhưng chuyên sâu về mặt tính toán.

They established the scalability of the model by adapting it for analysis of large customer
databases. Họ đã thiết lập khả năng mở rộng của mô hình bằng cách điều chỉnh nó để phân tích cơ sở dữ liệu
khách hàng lớn.
R2, which is the ratio of the variance of the dependent variables explained by the model to the
total variance of the dependent variables, is a popular measure for evaluating statistical models.
R2, là tỷ lệ phương sai của các biến phụ thuộc được giải thích bởi mô hình so với tổng phương sai của các biến phụ
thuộc, là một thước đo phổ biến để đánh giá các mô hình thống kê.

However, it is not that commonly used for evaluating quantitative models in direct marketing
due to two reasons. Tuy nhiên, nó không được sử dụng phổ biến để đánh giá các mô hình định lượng trong
Marketing trực tiếp vì hai lý do.

Firstly, accuracy and profitability measures are easily understandable and enough to satisfy
marketers’ requirements. Thứ nhất, các thước đo độ chính xác và lợi nhuận là dễ hiểu và đủ để đáp ứng yêu cầu
của các nhà Marketing.

Secondly, R2 is not a popular performance measure adopted by machine learning researchers,


who prefer measures like accuracy. Thứ hai, R2 không phải là một thước đo hiệu suất phổ biến được áp dụng
bởi các nhà nghiên cứu học máy, những người thích các biện pháp như độ chính xác.

Tóm tắt – Trình bày nd chương 5:


5. Đánh giá mô hình Marketing trực tiếp:
- Quá trình xây dựng và đánh giá mô hình Marketing trực tiếp gồm 2 bước:
+ Training (đào tạo)
+ Testing (thử nghiệm)
- Ở các bước khác nhau sẽ sử dụng bộ dữ liệu khác nhau
+ Bộ dữ liệu đào tạo (training data set): sử dụng cho xây dựng mô hình Marketing trực
tiếp
+ Bộ dữ liệu đánh giá (vailidation data set): được sử dụng để kiểm tra khả năng dự đoán
của thuật toán đối với dữ liệu chưa từng thấy trước đó
- Trong phần này, tác giả tập trung vào các tiêu chí được sử dụng để đánh giá mô hình
Marketing trực tiếp từ góc độ quả lý, và tiêu chí được sử dụng là độ chính xác và lợi
nhuận.
- Báo cáo bên dưới nói về hiệu suất mô hình Marketing trực tiếp dựa bộ dữ liệu xác thực
(validation data)

5.1. Đánh giá độ chính xá của các mô hình Marketing trực tiếp
Ta có ma trận Confusion như sau:
Ý nghĩa các ký hiệu ma trận Confusion:
- A: True positive (dương tính thật)
- B: False negative (âm tính giả)
- C: False positive (dương tính giả)
- D: True negative (âm tính thật)
Để giải thích cho các ký hiệu này, chúng ta xem xét tình huống sau: Hai bệnh nhân vì nghi ngờ
mang thai nên đến bệnh viện chuẩn đoán mang thai hay không, kết quả xét nghiệm có thể rơi
vào 4 tình huống sau:

- Một thước đo chính xác là tỷ lệ nhận dạng chính xác (the ratio of correct identification)
hoặc PCC (Percentage Correctly Classified instances): tỷ lệ A+D / A+B+C+D (tổng đường
chéo trên tổng số)
- Ma trận này được sử dụng để đánh giá các mô hình hoặc so sánh giữa các mô hình với
nhau.
- Độ chính xác cao hơn cả 2 mô hình ANN và Logit sử dụng thông tin mua hàng ngoài
thông tin nhân khẩu học
- Kết quả của họ cho thấy rằng ANN hoạt động tốt hơn so với Logit về phân loại trung
bình, lợi thế khoảng 21.5% trên 20 giao dịch mua hàng
- Khi so sánh tỉ lệ Misclassification (tỉ lệ phân loại sai) của DT, ANN, LR và mô hình Hybrid
(mô hình lai) của ba. Kết quả cho thấy mô hình Hybrid có tỷ lệ sai thấp nhất.
-

You might also like