You are on page 1of 21

Khai thác dữ liệu trong kinh doanh Chương 10

CHƯƠNG 10

CÁC ỨNG DỤNG CỦA KHAI THÁC DỮ LIỆU TRONG KINH DOANH

Trong chương này:


• Điểm qua các ứng dụng của khai thác dữ liệu trong kinh doanh
• Cung cấp những ví dụ thực về các ứng dụng này
• Mô tả khái niệm Lift
• Thảo luận các ứng dụng trong quản lý quan hệ khách hàng, chấm điểm tín dụng, các
ứng dụng khác
• So sánh điểm mạnh của các phương pháp khai thác dữ liệu

Bạn có từng thắc mắc là tại sao vợ/chồng của mình lấy tất cả các catalog lạ hoắc để tìm hiểu
các sản phẩm vô danh trong thùng thư? Bạn có từng thắc mắc tại sao vợ/chồng của mình lại
quan tâm nhiều đến những thứ này, và có bao giờ nghĩ rằng vợ/chồng của mình đã hưởng ứng
thái quá loại quảng cáo này? Vì vấn đề này bạn có từng thắc mắc tại sao 90% các cuộc điện
thoại tới, nhất là những cuộc điện trong các bữa ăn, là mời mua sản phẩm? (hoặc tại sao
những người gọi tới cứ cho rằng bạn là một khách hàng tiềm năng, mặc dù bạn luôn nói với
họ rằng cơ sở dữ liệu của họ đã sai rồi).

Một trong những ứng dụng trong kinh doanh sớm nhất và hiệu quả nhất là là phân khúc khách
hàng. Ứng dụng âm thầm này sử dụng các cơ sở dữ liệu đại trà (thu thập từ nhiều nguồn khác
nhau) để phân chia thị trường thành từng nhóm khách hàng, những người được nghiên cứu
với các công cụ khai thác dữ liệu để tiên đoán phản ứng của họ đối với các chiến dịch quảng
cáo. Việc này được chứng minh là rất hiệu quả. Ý tưởng là gửi catalog (hoặc gọi điện thoại)
cho một nhóm khách hàng mục tiêu với 5% xác suất mua hàng vẫn hơn là tiêu phí nguồn lực
tiếp thị tốn kém cho để tiếp cận những người chỉ có 0,05% khả năng mua hàng. Nguyên lý
này cũng đã được sử dụng trong các chiến dịch bầu cử bởi các đảng phái – cho xe chở miễn
phí đến phòng bỏ phiếu đối với những người trong đảng, hạn chế cho xe chở đối với những
người có khả năng bỏ phiếu cho đối thủ. Một số người cho rằng điều này bị lệch lạc, những
người khác thì cho rằng hợp lý.

Khai thác dữ liệu tạo ra các cơ hội để áp dụng công nghệ nhằm cải thiện nhiều mặt của kinh
doanh. Một số ứng dụng thông thường được trình bày trong chương này. Giá trị của kiến thức
này là trình bày cho bạn những ứng dụng trong quá khứ để bạn có thể dùng trí tưởng tượng
của mình mở rộng những ý tưởng ứng dụng này vào những môi trường mới.

Như đã trình bày trong Chương 1, khai thác dữ liệu có thể phân loại thành 2 chức năng: kiểm
định giả thuyết và khám phá tri thức. Công nghệ khai thác dữ liệu được nhiều công ty sử dụng
ngày càng tăng phân tích các cơ sở dữ liệu lớn để khám phá những điều chưa biết và những
thông tin để hành động giúp ra các quyết định quan trọng. Đây là cơ sở của thuậ ngữ “khám
phá tri thức”. Khái thác dữ liệu có thể được thực hiện thông qua một số kỹ thuật như liên hệ,
phân loại, lập nhóm, tiên đoán, mẫu tuần tự, và chuỗi thời gian tương tự. Các biến thể của các
kỹ thuật này được phát triển qua thời gian. Giải thuật khái thác dữ liệu được thực hiện trong
nhiều lĩnh vực khác nhau như thống kê, cây quyết định, mạng thần kinh, fuzzy logic, và quy
hoạch tuyến tính. Có nhiều phần mềm khai thác dữ liệu như Enterprise, Miner (SAS)
Intelligient Miner (IBM), Clementine (SPSS) PolyAnalyst (Megaputer). Cũng có những sản
phẩm phần mềm để thực hiện các giải thuật cụ thể như CART và See5 cho cây quyết định, và
những sản phẩm khác dùng trong các pha khác nhau của quá trình khai thác dữ liệu.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 157
Khai thác dữ liệu trong kinh doanh Chương 10

CÁC ỨNG DỤNG

Khai thác dữ liệu đã chứng tỏ rất có giá trị trong hầu hết các lĩnh vực học thuật. Hiểu các ứng
dụng trong kinh doanh của khai thác dữ liệu là cần thiết để đặt sinh viên trường kinh doanh
vào công nghệ thông tin phân tích. Khai thác dữ liệu là phương tiện để quản lý quan hệ khách
hàng1, phân tích tài chính2, quản lý thẻ tín dụng3, ngân hàng4, bảo hiểm5, viễn thông, và nhiều
lĩnh vực ứng dụng thống kê hỗ trợ kinh doanh. Khai thác dữ liệu kinh doanh thực hiện được
nhờ sự phát sinh các khối dữ liệu khổng lồ từ hệ thống máy tính. Hiểu được hệ thống tạo ra
thông tin này và các công cụ hỗ trợ trong phân tích nên là kiến thức cơ bản cho sinh viên
ngành kinh doanh trong thế kỷ 21. Có nhiều ứng dụng rất hữu dụng được sử dụng trong tất cả
nghiên cứu khoa học ở mọi ngành. Khai thác dữ liệu cần hỗ trợ để tìm hiểu ý nghĩa của khối
dữ liệu kinh doanh khổng lồ thu thập nhờ công nghệ máy tính.

Chương này trình bày các ví dụ về một số ứng dụng chính của khai thác dữ liệu. Qua đó,
minh họa các kỹ thuật khác nhau đã chứng tỏ khá hiệu quả. Bảng 10.1 trình bày một số các
ứng dụng này, tất cả đều dựa trên các báo cáo rất gần đây. Các kỹ thuật thống kê khá đơn
giản: dự đoán, nhận diện quan át gần nhất với các trường hợp trong quá khứ, hoặc nhận diện
một vài kiểu mẫu (Patterns).
Bảng 10.1: Các ứng dụng của khai thác dữ liệu
6
Ứng dụng Nguồn Chức năng Kỹ thuật thống kê Phương pháp
khai thác dữ liệu
Bán hàng qua Nhiều nguồn Phân khúc khách hàng Phân tích cụm k-means
catalog Tối ưu hóa dòng thư Mạng thần kinh
CRM Drew và ctg (2000) Đánh giá khách hàng Phân tích cụm Mạng thần kinh
(Viễn Thông) Phân tích bỏ dịch vụ
Chấm điểm tín Adams và ctg (2001) Ứng dụng vào cho vay Phân tích cụn k-means
dụng Ngân hàng Tìm kiếm dạng mẫu
(cho vay) Sung và ctg (1999) Tiên đoán phá sản Phân tích biệt số Cây quyết định
phán đoán
Rủi ro đầu tư Becerra-Fernandez và Giữ khách hàng (bỏ Hồi qui logistic tiên Cây quyết định
Bảo hiểm ctg (2002) dịch vụ) đoán
Smith và ctg (2000) Định giá Mạng thần kinh

Chúng ta bắt đầu với ví dụ đặc sắc nhất trong khai thác dữ liệu. Fingerhurt là công ty tiên
phong trong việc phát triển các phương pháp cải thiện công việc kinh doanh. Trong ví dụ này,
họ tìm cách nhận diện một nhóm công chúng nhỏ có nhiều khả năng nhất mua hàng từ các
catalog hàng đặc biệt của họ. Họ đã thành công đến mức sau đó họ bị mua lại bởi Federated
Store. Cuối cùng các hoạt động này là nạn nhân của tình trạng bất ổn chung trong lĩnh vực
công nghệ thông tin trong năm 2001 và 2002. Nhưng chúng vẫn tiêu biểu cho sự tiên phong
phát triển ứng dụng khai thác dữ liệu trong kinh doanh.

Tối ưu hóa dòng thư ở Fingerhut


Việc sử dụng khai thác dữ liệu của Fingerhut được nhắc đến đầu tiên trong Chương 1. Mô
hình phân khúc của họ cho phép tạo ra các địa chỉ gửi thư đến các khách hàng mục tiêu. IBM
đã tham gia dự án với Fingerhut để xem xét hàng ngàn thuộc tính của khách hàng để xác định
xem các khách hàng nào nên được gửi catalog 7. Ứng dụng của IBM được gọi là Advanced
Targeted Marketing for Single Events (ATM-SE) và được thiết kế để xây dựng các mô hình

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 158
Khai thác dữ liệu trong kinh doanh Chương 10

khách hàng – lợi nhuận và mô hình khả năng đáp ứng cho tiếp thị hướng đích bán lẻ. Cụ thể
mục đích là phân biệt và loại bỏ những địa chỉ gửi thư không hiệu quả mà không ảnh hưởng
đến doanh thu. Điều này dẫn đến hệ thống tối ưu hóa dòng thư, hệ thống này xem xét tình
trạng bảo hòa, các giới hạn quảng cáo và mức độ ưa thích các catalog. Hệ thống tối ưu hóa
dòng thư có một tầm kế hoạch khoảng 12 tuần. Các thành phần của hệ thống này được trình
bày trong Bảng 10.2.
Bảng 10.2: Hệ thống tối ưu hóa dòng thư tại Fingerhut
Giai đoạn Hoạt động Chức năng
Trích chiết Phân khúc khách hàng Ấn định mức độ quảng cáo phù hợp với từng khách
dữ liệu hàng
Phân bổ quảng cáo Ấn định ngân sách theo từng nhóm nhỏ
Đánh giá lợi nhuận từng khách hàng Tiên đoán lợi nhuận từ khách hàng
Xác định độ bảo hòa Nhận diện các tương tác
Giảm điểm số Chiết khấu lợi nhuận theo mức độ tương tác
Tối ưu hóa Phân nhóm Giảm quy mô vấn đề
Tạo ra dòng thư Tạo ra đối tượng của dòng thư
Chọn dòng thư Nhận diện dòng thư tốt nhất theo từng phân nhóm
Ấn định dòng thư Xác định từng khách hàng vào các phân nhóm
Gửi thư Gửi catalog Tiếp xúc khách hàng
Nguồn: Trích từ nghiên cứu của Campbell và cộng sự (2001) 8

Hệ thống này chạy hàng tuần, gửi catalog trong 6 tháng. Chương trình này khá lớn, chạy liên
tục 12 giờ trên những hệ thống máy song song. Một chương trình dòng thư thứ nhì cũng được
chạy mỗi tuần, tạo ra dòng thư cho 1.000.000 khách hàng mới. Mục tiêu của hệ thống thứ nhì
này là kiểm soát việc quảng cáo và rủi ro trong khi vẫn tăng cường mức độ đáp ứng của dòng
thư. Fingerhut ước tính tiết kiệm gần 3 triệu đô la mỗi năm nhờ hệ thống tối ưu hóa dòng thư9.
Hệ thống này cho phép Fingerhut đi ngược lại xu hướng của ngành bán hàng qua catalog
trong năm 1998 và giảm việc gửi thư 20% trong khi tăng thu nhập thuần lên hơn 37 triệu đô
la10.

Nhà bán lẻ và nhà sản xuất biết họ đang phung phí nhiều tiền vào tiếp thị đại trà. Khái niệm
lift là rất quan trọng trong xúc tiến tiếp thị. Lift là khác biệt giữa xác suất phản ứng thuận lợi
trung bình và phản ứng thực tế thu được. Các mô hình mạng thần kinh được sử dụng để nhận
ra các trùng lắp trong mô hình gửi thư và yêu cầu gọi điện thoại điền vào đơn đặt hàng. Điều
này giúp Fingerhut tăng thêm hiệu quả gọi điện thoại và cho phép họ xử lý được nhiều đơn
đặt hàng.

Lift
Phần này giải thích khái niệm Lift sử dụng trong các mô hình phân khúc khách hàng. Chúng
ta có thể chia dữ liệu thành từng nhóm tốt như chúng ta muốn (ở đây chúng ta dữ liệu thành
20 phần bằng nhau của tổng thể, mỗi nhóm 5%). Những nhóm này có một số đặc trưng nhận
diện như mã ZIP (mã gửi thư qua bưu điện), mức thu nhập, … Chúng ta có thể lấy mẫu và
nhận diện tỉ lệ bán hàng cho từng nhóm. Ý tưởng đằng sau lift là gửi tài liệu bán hàng (phát
sinh chi phí đơn vị) đến những nhóm có xác suất đáp ứng thuận lợi trước. Chúng ta có thể
hình dung lift bằng cách vẽ các đáp ứng theo tỉ lệ so với tổng thể khách hàng tiềm năng như
trong Bảng 10.3. Cả hai đáp ứng tích lũy và tỉ lệ tích lũy của tổng thể được vẽ đổ thị để nhận
ra lift. Lift là chênh lệch giữa hai đường trong Hình 10.1.

Mục tiêu của phân tích lift là nhận diện những phân khúc đáp ứng nhiều nhất. Ở đây lift lớn
nhất đạt được sau 10 phân khúc. Tuy nhiên có lẽ chúng ta quan tâm nhiều hơn đến lợi nhuận.
Chúng ta có thể nhận ra chính sách đem lại lợi nhuận nhiều nhất, nhưng điều cần thực hiện là

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 159
Khai thác dữ liệu trong kinh doanh Chương 10

nhận diện ra phần tổng thể để gửi tài liệu chào hàng. Ví dụ, Nếu một đáp ứng thuận lợi trung
bình đem lại 80$ doanh thu và chi phí là 5$ cho mỗi bộ tài liệu chào hàng gửi đi, hiển nhiên là
sẽ có nhiều lợi nhuận hơn nếu gửi tài liệu đến phân khúc thứ nhất có tỉ lệ đáp ứng là 0,0987
(80$ x 0,0987 = 7,896$ đủ để trang trải chi phí 5$ và có lợi nhuận là 2,896$). Nhưng vẫn còn
có thể cải thiện tổng lợi nhuận bằng cách gửi tài liệu cho các phân khúc khác (luôn luôn ưu
tiên chọn những phân khúc có tỉ lệ đáp ứng lớn hơn). Đồ thị vẽ lợi nhuận tích lũy được trình
bày trong Hình 10.2 đối với tập dữ liệu này. Phân khúc đáp ứng tốt thứ nhì cũng cho lợi
nhuận, 80$ x 0,0923 = 7,384$ trang trải được 5$ chi phí và có lời 2,384$. Phân khúc đáp ứng
tốt thứ bảy thu được 80$ x 0,0673 (5,384$), trong khi phân khúc đáp ứng tốt thứ tám chỉ thu
được 80$ x 0,0623 (4,984$). Bảng 10.4 trình bày các tính toán kỳ vọng này.
Bảng 10.3: Đáp ứng theo từng phân khúc của hệ thống tối ưu hóa dòng thư Fingerhut
Các phân khúc Tỉ lệ đáp ứng Tỉ lệ đáp ứng Tỉ lệ đáp ứng Lift
theo thứ tự kỳ vọng tích lũy ngẫu nhiên
Origin 0 0 0 0
1 0.0987 0.0987 0.05 0.0487
2 0.0923 0.1910 0.10 0.0910
3 0.0873 0.2783 0.15 0.1283
4 0.0823 0.3606 0.20 0.1606
5 0.0773 0.4379 0.25 0.1879
6 0.0723 0.5102 0.30 0.2102
7 0.0673 0.5775 0.35 0.2275
8 0.0623 0.6398 0.40 0.2398
9 0.0573 0.6971 0.45 0.2471
10 0.0523 0.7494 0.50 0.2494
11 0.0473 0.7967 0.55 0.2467
12 0.0423 0.8390 0.60 0.2390
13 0.0373 0.8763 0.65 0.2263
14 0.0323 0.9086 0.70 0.2086
15 0.0273 0.9359 0.75 0.1859
16 0.0223 0.9582 0.80 0.1582
17 0.0173 0.9755 0.85 0.1255
18 0.0125 0.9880 0.90 0.0880
19 0.008 0.9960 0.95 0.0460
20 0.004 1.0000 1.00 0

Hình 10.1: Lift được nhận diện qua hệ thống tối ưu hóa dòng thư

Lift
1
0.9
0.8
0.7
tỉ lệ đáp ứng

0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
tỉ lệ tổng thể

Tỉ lệ đáp ứng tích lũy Tỉ lệ đáp ứng ngẫu nhiên

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 160
Khai thác dữ liệu trong kinh doanh Chương 10

Hàm lợi nhuận trong Hình 10.2 đạt cực đại ở phân khúc thứ bảy.

Rõ ràng là lợi nhuận kỳ vọng được tìm bằng cách gửi tài liệu tới 8 phân khúc đáp ứng nhiều
nhất trong số 20 phân khúc của tổng thể. Ý nghĩa là trong trường hợp này là tài liệu chào hàng
nên được gửi đến 6 phân khúc đầu tiên có tỉ lệ đáp ứng cao nhất. Nếu có đủ ngân sách xúc
tiến bán hàng, nên áp dụng cách này cho càng nhiều phân khúc càng tốt nếu có đủ ngân sách,
để bù lại sự giảm của tỉ lệ đáp ứng, đến phân khúc thứ 15 thôi.

Tuy nhiên cũng có khả năng là tập trung vào thước đo sai. Mục tiêu căn bản của phân tích lift
trong tiếp thị là nhận diện những khách hàng nào mà quyết định của họ bị ảnh hưởng tích cực
bởi hoạt động tiếp thị 11. Mói tóm lại, phương pháp này nhận diện các phân khúc trong cơ sở
khách hàng mà chúng ta hy vọng sẽ mua hàng. Điều này có thể thực hiện được hay có thể
không là do các nổ lực tiếp thị. Cũng áp dụng phương pháp tương tự, nhưng cần nhiều dữ liệu
chi tiết để nhận diện những người sẽ thay đổi quyết định do chiến dịch tiếp thị thay vì chỉ đơn
giản là do họ muốn mua sản phẩm.
Hình 10.2: Ảnh hưởng của Lift lên lợi nhuận
120

100

80

60

40

20

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
-20

-40

Lợi nhuận kỳ vọng tích lũy chi phí tích lũy ngẫu nhiên lợi nhuận kỳ vọng

Bảng 10.4: Tính toán lợi nhuận kỳ vọng


Danh thu kỳ vọng
Doanh thu kỳ vọng Chi phí tích lũy
của từng phân khúc Lợi nhuận kỳ vọng
tích lũy = $5 x i
= $80 x P
$0.000 $0.000 $0 $0.000
$7.896 $7.896 $5 $2.896
$7.384 $15.280 $10 $5.280
$6.984 $22.264 $15 $7.264
$6.584 $28.848 $20 $8.848
$6.184 $35.032 $25 $10.032
$5.784 $40.816 $30 $10.816
$5.384 $46.200 $35 $11.200
$4.984 $51.184 $40 $11.184
$4.184 $59.952 $50 $9.952
$3.784 $63.736 $55 $8.736
$3.384 $67.120 $60 $7.120
$2.984 $70.104 $65 $5.104
$2.584 $72.688 $70 $2.688
$2.184 $74.872 $75 -$0.128

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 161
Khai thác dữ liệu trong kinh doanh Chương 10

$1.784 $76.656 $80 -$3.344


$1.384 $78.040 $85 -$6.960
$1.000 $79.040 $90 -$10.960
$0.640 $79.680 $95 -$15.320
$0.320 $80.000 $100 -$20.000

Một phương pháp khác xem xét nhiều yếu tố là phân tích thời gian, tần số và tiền tệ (Recency,
Frequency và Monetary - RFM). Giống như phân tích lift, mục tiêu của RFM là nhận diện
khách hàng có nhiều khả năng đáp ứng đối với những mời chào. Trong khi lift xem xét thước
đo tĩnh đáp ứng đối với một chiến dịch, RFM theo dõi giao dịch của khách hàng theo thời
gian, tần số và lượng mua. Thời gian quan trọng vì một số khách hàng có thể không đáp ứng
lại chiến dịch cuối cùng nhưng có thể bây giờ lại sẵn sàng mua sản phẩm đang được tiếp thị.
Các khách hàng cũng có thể được sắp xếp theo tần số đáp ứng, và theo lượng tiền mua hàng.
Mỗi món hàng mua được mã hóa theo 3 chiều hướng (một cách tiếp cận là có năm ô cho mỗi
một thước đo, tạo ra 125 kết hợp, mỗi một kết hợp có thể liên quan với đáp ứng tích cực của
đối với chiến dịch tiếp thị). RFM vẫn còn hạn chế ở điểm thông thường có nhiều hơn 3 yếu tố
quan trọng ảnh hưởng đến chương trình tiếp thị thành công, như là sự phong phú của sản
phẩm, tuổi, thu nhập, lối sống của khách hàng …12 Cách tiếp cận này là nền tảng cho một loạt
các kỹ thuật cải tiến hiệu quả tiếp thị bằng phân khúc thị trường 13.

Hiểu được lift giúp hiểu được giá trị của từng loại khách hàng cụ thể. Điều này cho phép quản
lý khách hàng một cách thông minh, sẽ được thảo luận trong phần kế tiếp.

Quản lý quan hệ khách hàng (Customer Relationship Management – CRM)


Ý tưởng của quản lý quan hệ khách hàng là nhằm đối xử đặc biệt đối với một số khách hàng
mục tiêu dựa trên tiên đoán về giá trị tương lai của họ đối với công ty. Điều này đòi hỏi phải
ước đoán khách hàng đang ở trong giai đoạn nào của khu kỳ sống, cũng như giá trị khách
hàng suốt đời dựa vào thời kỳ kỳ vọng với công ty, các giao dịch hàng tháng của khách hàng,
và chi phí cung cấp dịch vụ cho họ. Giá trị suốt đời của khách hàng là dòng tiền kỳ vọng chiết
khấu về hiện giá xuất phát từ khách hàng.

Nhiều công ty ứng dụng CRM tính điểm từng khách hàng theo ước tính giá trị suốt đời
(Lifetime value – LTV) , và giá trị này được lưu trữ trong cơ sở dữ liệu khách hàng của công
ty14. Khái niệm này được sử dụng rộng rãi trong tiếp thị bằng catalog, xuất bản báo chí, bán
lẻ, bảo hiểm, và thẻ tín dụng. LTV là cơ sở cho nhiều chương trình tiếp thị ưu đãi đặc biệt như
giá ưu đãi, dịch vụ tốt hơn, và nâng cấp thiết bị.

Một vấn đề khi sử dụng LTV theo cách này là nó giả sử tất cả các khách hàng đều có phân
phối thời kỳ sống như nhau. Tuy nhiên các hành động của công ty (và các hành động của đối
thủ) có thể thay đổi thời kỳ của khách hàng. Đánh giá giá trị khách hàng có thể được dựa trên
mối quan hệ động, phản ảnh rủi ro của việc khách hàng rời bỏ. Các khách hàng lớn thường
là mục tiêu của các hoạt động cạnh tranh mạnh, và vì vậy có nhiều rủi ro rời bỏ. Khách hàng
trung thành, ngay cả khi lượng giao dịch nhỏ, có giá trị đối với công ty hơn những khách hàng
mua số lượng lớn là những người dễ rời bỏ đi qua đối thủ. Do đó LTV có thể nhân với xác
suất khách hàng lưu lại. Các mô hình mạng thần kinh nhân tạo được sử dụng để ước lượng
các xác suất này cho từng nhóm khách hàng thay vì hồi qui, điều này là do hiệp biến thiên
(covariation) giữa các nhóm khách hàng và do hiểu biết giới hạn về những mối quan hệ này.

Để mô hình hóa rủi ro của từng khách hàng mục tiêu, biến thời kỳ và biến nhị phân rời bỏ
(binary churn flag) được sử dụng. Đối với mỗi khách hàng trong từng tháng, mô hình mạng
thần kinh có thể cung cấp tiên đoán về khả năng rời bỏ và thời kỳ. Điều này được cho là tốt

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 162
Khai thác dữ liệu trong kinh doanh Chương 10

hơn hồi qui theo phương pháp bình phương bé nhất và hồi qui logistic, bởi vì các giả định
thống kê không cần thiết đối với mô hình mạng thần kinh. Trong ví dụ này, yếu điểm của
cách tiếp cận mạng thần kinh là không có công thức để phân tích, và tầm quan trọng tương
đối của các hiệp biến (covariate) của mô hình không được nhận diện. Mô hình mạng thần kinh
cũng chủ quan đối với các vấn đề của dữ liệu như lệch lạc của mẫu, các quan sát tương quan
với nhau giống như trong hồi qui.
Mô hình này được áp dụng từ dữ liệu của bộ phận điện thoại di động của một công ty viễn
thông lớn ở Mỹ. Các dữ liệu có sẵn bao gồm hóa đơn tính tiền chi tiết, sử dụng, và thông tin
cá nhân được trình bày trong Bảng 10.5.
Bảng 10.5: Dữ liệu CRM
Loại dữ liệu Biến mô tả
Hóa đơn Nợ tháng trước
Phí truy cập
Số phút sử dụng
Số cuộc gọi trả phí (toll)
Phí Roaming
Phí sử dụng các dịch vụ tùy chọn
Sử dụng Tổng số cuộc gọi
Số phút gọi nội hạt
Số phút cuộc gọi trả phí
Số phút gọi giờ cao điểm
Số phút gọi giờ thấp điểm
Thuê bao Số tháng dùng dịch vụ (biến tiên đoán)
Gói cước
Loại hợp đồng
Ngày
Thời gian
Bỏ dịch vụ 0 – 1 biến rời bỏ (biến tiên đoán)
khác Tuổi
Mức độ sinh lợi hiện hữu
Mức độ sinh lợi quá khứ
Các dịch vụ tùy chọn

Mô hình được kiểm tra trên 1 thị trường nhỏ có 21.500 thuê bao trong tháng 4 năm 1998.
Thời kỳ dự đoán lên tới 36 tháng tới. Chỉ có một tỉ lệ phần trăm nhỏ khách hàng rời bỏ công
ty trong tháng này, cho thấy một ví dụ khác về dữ liệu bị lệch lạc. Mẫu này cũng chủ yếu bao
gồm các khách hàng có thời kỳ ngắn. Bằng cách dựa vào mô hình mạng thần kinh về tỉ lệ bỏ
dịch vụ theo tháng trong thời kỳ, tránh được cả hai lệch lạc này. Tập dữ liệu phân tích gồm
15.000 thuê bao và còn lại là tập dữ liệu kiểm tra gồm 6.500 thuê bao. Có 36 nhóm thời kỳ
khách hàng (customer tenure classes).

Mô hình nhóm các khách hàng vào 4 phân nhóm. Những người ít có khả năng bỏ dịch vụ nhất
được để riêng ra, trên cơ sở cho rằng việc tiếp xúc sẽ làm họ rời bỏ. Nhóm thứ hai bao gồm
những người có một chút khuynh hướng bỏ dịch vụ ở cuối hợp đồng. Hoạt động tiếp thị đối
với nhóm thứ hai này những hoạt động vừa phải trước khi hết hạn. Đối với nhóm thứ ba là
nhóm có nhiều khả năng bỏ dịch vụ khi hết hạn, các hoạt động tiếp thị tập trung được áp dụng
trước khi đến hạn. Đối với phân nhóm có rủi ro cao nhất, các mời chào cạnh tranh để tiếp tục
dịch vụ được đưa ra.

Trong khi CRM rất hứa hẹn, người ta đã phát hiện ra rằng nó ít hiệu quả hơn là người ta đã hy
vọng về nó. Patton (2001) đã thấy rằng 70% các dự án CRM đã không tạo ra các lợi ích kinh
doanh có thể đo lường được 15. CRM có thể tiêu tốn đến 70 triệu đô la để phát triển, với các
chi phí tăng thêm trong quá trình thực hiện. Patton đã nêu các vấn đề với các ứng dụng CRM
tại Monster.com, Mshow, và CopperCom. Một lý do được nêu ra là rắc rối trong việc thực
hiện CRM là do những người sử dụng nó, hầu hết là những người thuộc bộ phận marketing,
không quen với máy tính như bộ phận kế toán, và sản xuất. Ở công ty Mshow, lực lượng bán

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 163
Khai thác dữ liệu trong kinh doanh Chương 10

hàng từ chối sử dụng hệ thống CRM mới. Ở công ty CopperCom dự án CRM 500.000 đô la bị
giảm quy mô vì thiếu hỗ trợ từ phía cung cấp dịch vụ ứng dụng. Mặt khác Siebel System, nhà
cung cấp dịch vụ CRM lớn nhất, báo cáo rằng hầu hết số đông khách hàng của họ hài lòng với
sản phẩm của họ. Ngay cả Fingerhut, người tiên phong sử dụng khai thác dữ liệu trong kinh
doanh, nhìn thấy hoạt động chấm dứt sau khi bị thôn tính bởi các tổ chức bán hàng lớn hơn.

Nhiều vấn đề trong CRM đã bị đổ lỗi là do hoạt động quá tích cực của lực lượng bán hàng.
CRM cung cấp nhiều cơ hội để hoạt động hiệu quả hơn. Tuy nhiên đó không phải là những
viên đạn bạc, và lợi ích không phải là vô giới hạn. Như với bất kỳ hệ thống nhào, việc đánh
giá trước các lợi ích rất khó, và đầu tư hệ thống CRM cần dựa trên phân tích và phán đoán
hợp lý.

Chấm điểm tín dụng


Khai thác dữ liệu có thể bao gồm xây dựng mô hình (mở rộng của xây dựng mô hình thống kê
truyền thống cho các tập dữ liệu rất lớn) và nhận diện kiểu mẫu (pattern recognition). Nhận
diện kiểu mẫu nhằm nhận ra các nhóm quan sát cần quan tâm. Thông thường các hệ chuyên
gia được sử dụng để hỗ trợ việc nhận diện các kiểu mẫu. Công trình nghiên cứu của Adams và
cộng sự so sánh khai thác dữ liệu dùng trong xây dựng mô hình và nhận diện kiểu mẫu hành
vi của khách hàng qua thời kỳ một năm. Tập dữ liệu liên quan đến tài khoản ngân hàng ở một
công ty thẻ tín dụng lớn ở Anh được quan sát hàng tháng. Những tài khoản này được tái cấp
phát tín dụng với hạn hạn mức. Người vay được yêu cầu trả ít nhất một số tiền tối thiểu hàng
tháng. Những người trả đủ thì không bị tính lãi suất, và như vậy không hấp dẫn đối với người
cho vay.

Chúng ta đã thấy rằng lập nhóm (clustering) và tìm kiếm kiểu mẫu (pattern search) thường là
những hoạt động đầu tiên của phân tích dữ liệu. Sau đó là xây dựng mô hình phù hợp. Chấm
điểm tín dụng là một phương tiện dùng kết quả của xây dựng mô hình khai thác dữ liệu cho
hai mục tiêu. Áp dụng chấm điểm tín dụng trong ví dụ vào các trường hợp mới, và tiếp tục
một hoạt động đã được thực hiện thủ công trong hơn nửa thế kỷ qua tại tổ chức này. Đó là
chấm điểm hành vi nhằm theo dõi các tài khoản tín dụng với ý định là đạt được cảnh báo sớm
đối với tài khoản gặp khó khăn.

Dữ liệu liên quan đến tình trạng của các tài khoản được thu thập hàng tháng. Biến tình trạng
có thể nhận các giá trị nguyên từ 0 đến 8, cho biết số lần tích lũy của việc không trả lại vào tài
khoản hàng tháng. Có hơn 90.000 khách hàng. Chất lượng dữ liệu được duy trì bằng cách loại
bỏ những quan sát đã tăng hơn 1 trong bất kỳ tháng nào, hoặc những quan sát có bị thiếu giá
trị.

Vì mục tiêu ví dụ, một mẫu 10.000 quan sát thỏa điều kiện các quan sát có biến tình trạng ban
đầu là 0 được chọn (có hơn 70% khách hàng chưa bao giờ có biến tình trạng khác 0).

Phân lập nhóm (Clustering)


Hai phương pháp phân lập nhóm được xem xét. Một là kỹ thuật phân lập nhóm không giám
sát, đó là phân hoạch, là quá trình xem xét một tập dữ liệu để định nghĩa một biến phân loại
dùng để chia tập hợp này thành một số lượng xác định các vùng. Số lượng này dùng để phân
khúc dữ liệu thành những nhóm khác nhau. Giải thuật phân hoạch được biết đến nhiều nhất là
k-means, trong đó k điểm trung tâm (center point) được định nghĩa, và mỗi quan sát được
phân loại vào nhóm có điểm trung tâm gần nhất. Giải thuật k-means cố gắng định vị các điểm
trung tâm sao cho tối thiểu hóa tổng các khoảng cách. Centroid được sử dụng như các điểm
trung tâm, và thước đo khoảng cách thường dùng nhất là khoảng cách Euclide. Để có một thủ
tục ổn định hơn trong nghiên cứu này, phương pháp phân hoạch sử dụng là k-median. Người

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 164
Khai thác dữ liệu trong kinh doanh Chương 10

ta dùng một hàm để chuyển đổi 12 giá trị của biến tình trạng của từng khách hàng thành một
giá trị duy nhất. Phân hoạch dãy các giá trị này thành các nhóm đòi hỏi cần có một giá trị
ngưỡng. Giá trị ngưỡng bất kỳ được sử dụng đã tạo ra 8.261 hồ sơ thuộc lớp 0 và 1.739 hồ sơ
thuộc lớp 1.

Tìm kiếm kiểu mẫu (pattern search)


Cuộc nghiên cứu này đã tìm kiếm các kiểu mẫu được tạo thành từ việc nhóm các đối tượng.
Trong ví dụ này, một kiểu mẫu được định nghĩa là một lượng lớn đột xuất các đối tượng
giống nhau. Giải thuật ước lượng xác suất xuất hiện trong không gian hồ sơ/không gian dữ
liệu (profile space) của từng quan sát trong 10.000 điểm dữ liệu quan sát. Sau đó mỗi điểm
được xem xét để nhận diện những điểm có ước lượng xác suất lớn nhất trong số những điểm
gần kề. Điều này nhận diện được những cao điểm. Khoảng cách Euclide được dùng để tạo ra
tập hợp so sánh cục bộ thông qua một giải thuật nhanh. Cách tiếp cận này nhận ra các tiểu sử
(profile) lân cận của các quan sát có đặc trưng giống nhau là lớn hơn kỳ vọng.

So sánh
Cả hai phương pháp đều tìm cách nhóm các đối tượng. Phân lập nhóm phân hoạch toàn bộ
mẫu dữ liệu, ấn định mỗi quan sát chính xác vào 1 nhóm. Tìm kiếm kiểu mẫu tìm cách nhận
dạng các phân nhóm lân cận bởi vì có nhiều đối tượng với những đặc trưng tương tự hơn kỳ
vọng/thông thường. Tìm kiếm kiểu mẫu không phân hoạch toàn bộ tập hợp dữ liệu, mà là
nhận ra một số ít nhóm cho thấy là có hành vi bất thường.

Khi áp dụng trên dữ liệu thật, phân lập nhóm hữu dụng cho mô tả hành vi của các lớp khách
hàng rộng lớn. Còn tìm kiếm kiểu mẫu thì hữu dụng trong việc nhận dạng các nhóm người có
hành vi giống nhau.

Tiên đoán phá sản


Tiên đoán công ty phá sản là rất điều quan trọng đối với ban giám đốc, cổ đông, nhân viên,
khách hàng và những người có liên quan khác. Một số kỹ thuật khai thác dữ liệu đã được ứng
dụng để giải quyết yêu cầu này như phân tích biệt số bội, hồi qui logistics, hồi qui probit, giải
thuật gen, mạng thần kinh, và cây quyết định.

Cuối thế kỷ 20, tình trạng phá sản các công ty ở Đông Á trở nên tồi tệ. Một số công ty đã
được đánh giá là mạnh trong điều kiện bình thường đã vỡ nợ trong thời kỳ khủng hoảng vào
cuối những năm 1980. Các mô hình tiên đoán phá sản đã được xây dựng cho cả trong điều
kiện bình thường và trong điều kiện khủng hoảng16. Nghiên cứu loại này này cũng đi tìm
kiếm lời giải thích cho các tiên đoán. Do vậy phương pháp cây quyết định được chấp nhận vì
phương pháp này cung cấp một loạt các nguyên tắc giải thích cho các tiên đoán của mô hình.
Ngược lại mô hình mạng thần kinh, tuy có khuynh hướng rất tốt khi tiên đoán, nhưng không
được sử dụng vì thiếu khả năng giải thích. Phân tích biệt số được dùng để so sánh kết quả của
mô hình tiên đoán cây quyết định.

Tình trạng phá sản của các công ty Hàn Quốc được nghiên cứu với ý định so sánh mô hình
tiên đoán phá sản trong điều kiện bình thường và trong điều kiện khủng hoảng. Kinh tế Hàn
Quốc ổn định trong suốt những năm 1990 cho đến khủng hoảng kinh tế bắt đầu vào quý 4
năm 1997. Mặc dù có giúp đỡ của Quỹ Tiền Tệ Quốc Tế (IMF), một số lượng lớn chưa từng
thấy các công ty Hàn Quốc đã phá sản do các ngân hàng tính lãi suất cao và các liên đoàn lao
động cản trở việc giảm quy mô. Dữ liệu về tất cả các công ty được niêm yết trên thị trường
chứng khoán Hàn Quốc bị phá sản từ quý 2 năm 1997 đến quý 1 năm 1998 được thu thập. Có
tới 75 công ty như vậy. Một số công ty không có dữ liệu đầy đủ, cho nên chỉ có 30 công ty là
đủ dữ liệu để phân tích. Trong tình trạng bình thường từ quý 2 năm 1991 cho đến quý 1 năm

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 165
Khai thác dữ liệu trong kinh doanh Chương 10

1995, có 56 công ty phá sản. Sau khi loại bỏ những công ty không có đủ dữ liệu, 29 công ty
phá sản trong giai đoạn bình thường được đưa vào phân tích. Mỗi công ty phá sản được chọn
được so sánh với 1 hay 2 công ty không phá sản có tài sản và số nhân viên tương tự. Mẫu
kiểm soát bao gồm 49 công ty không phá sản trong thời kỳ bình thường và 54 công ty trong
thời khủng hoảng.

56 tỉ số tài chính được chọn ra từ xem xét toàn diện lý thuyết. Có 16 tỉ số bị loại bỏ để tránh
trùng lặp, còn lại 40 tỉ số tài chính, bao gồm tỉ số phát triển (5 tỉ số), tỉ số lợi nhuận (13), tỉ số
đòn bẩy (9) tỉ số hiệu quả (6) và tỉ số năng suất/sinh lợi (7). Biến phụ thuộc là biến có hai giá
trị 1 và 0, phá sản và không phá sản.

Phân tích biệt số bội được áp dụng. Thủ tục từng bước - stepwise (mỗi lần đưa 1 biến vào dựa
trên khả năng đóng góp vào việc giải thích biến thiên của biến phụ thuộc) đã nhận ra 3 biến
giải thích trong điều kiện bình thường:

Biệt số = 0,058 B9 + 0,0623 E6 – 0,006 D4

Trong đó: B9: tỉ số giữa dòng tiền và tổng tài sản


E6: năng suất sinh lợi của vốn
D4: kỳ quay vòng tồn kho/vốn lưu động trung bình

Các công ty phá sản cho thấy tỉ số thấp giữa dòng tiền và tổng tài sản, năng suất sinh lợi của
vốn thấp, và kỳ quay vòng vốn dài.

Mô hình tiên đoán phá sản trong điều kiện khủng hoảng là:

Biệt số = 0,053 C8 + 0,056 E6 + 0,014 C3

Trong đó: C8: Tỉ số giữa dòng tiền và nợ phải trả


E6: Năng suất sinh lợi của vốn
D4: Tỉ số giữa tài sản cố định và vốn chủ sở hữu và nợ dài hạn

Các công ty phá sản cho thấy tỉ số thấp giữa dòng tiền và nợ phải trả, năng suất sinh lợi của
vốn thấp, và tỉ số tài sản so với vốn chủ sở hữu và nợ dài hạn thấp.

Kiểm tra “dao xếp” (Jack-knight validation)


Tập dữ liệu gốc rất nhỏ, do đó kiểm tra dao xếp (cũng được gọi là “phương pháp lấy ra từng
cái” bởi vì dữ liệu được điều khiển sao cho sử dụng nhiều nhất dữ liệu còn lại để tiên đoán
quan sát được chủ động lấy ra tuần tự để thử mô hình) được sử dụng. Phương pháp này loại
bỏ 1 điểm dữ liệu ra khỏi mẫu dữ liệu gốc, dùng các dữ liệu còn lại làm tập dữ liệu phân tích.
Sau đó dùng mô hình đã lập để tiên đoán phần tử đã loại ra trước đó. Việc này được thực hiện
lặp đi lặp lại, mỗi lần loại ra 1 quan sát.

Mô hình cây quyết định


Mô hình cây quyết định đòi hỏi một tập dữ liệu phân tích để xây dựng mô hình. Phần mềm
C4.5 được dùng. Cắt lọc bớt dữ liệu đã tăng độ chính xác của tiên đoán một cách có ý nghĩa
trong thời kỳ khủng hoảng, cho thấy dữ liệu thu thập trong thời kỳ khủng hoảng bị ảnh hưởng
nhiễu nhiều hơn dữ liệu thu thập trong thời kỳ bình thường. Độ chính xác tiên đoán gần 80%
đạt được trong thời kỳ bình thường bất chấp số lượng quan sát tối thiểu. Trong giai đoạn
khủng hoảng, số quan sát tối thiểu là 7 cần để đạt được độ chính xác này.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 166
Khai thác dữ liệu trong kinh doanh Chương 10

Thủ tục kỹ thuật Boosting (tăng cường) được dùng để cải thiện năng lực tiên đoán. Kỹ thuật
này xây dựng nhiều lần phân loại thay vì một lần. Những trường hợp nào bị phân loại sai
trong tập dữ liệu phân tích sẽ được chú ý nhiều hơn trong lần phân loại tiếp theo. Kỹ thuật
tăng cường thực hiện bằng cách thêm những biến tỉ số vào để cải thiện tỉ suất dự đoán trúng.
Quy tắc đạt được được trình bày trong Bảng 10.6. Trong đó:
C3: Tỉ lệ tài sản cố định trên vốn chủ sở hữu và nợ dài hạn
C8: Tỉ lệ dòng tiền so với tổng nợ phải trả
C9: Tỉ lệ dòng tiền so với tổng tài sản
E6: Năng suất sinh lợi của vốn
Bảng 10.6: Các quy tắc
Điều kiện Quy tắc Tiên đoán Độ tin cậy
Bình thường E6 > 19.65 Không phá sản 0,86
Bình thường C9 > 5,64 Không phá sản 0,95
Bình thường C9 ≤ 5,64 và E6 ≤ 19.65 Phá sản 0.84
Khủng hoảng E6 > 20,61 Không phá sản 0,91
Khủng hoảng C8 > 2,64 Không phá sản 0,85
Khủng hoảng C3 > 87,23 Không phá sản 0,86
Khủng hoảng C8 ≤ 2,64, E6 ≤ 20.61 và C3 Phá sản 0,82
≤ 87,23
Nguồn: Dựa trên công trình nghiên cứu của Sung và cộng sự (1999)

Bảng 10.7: Tỉ lệ tiên đoán của mô hình phân tích biệt số và cây quyết định
Điều kiện Phá sản Không phá Tỉ lệ chung Biến chủ yếu
đúng sản đúng
DA – bình thường 69% 90% 82% C9, E6, D4
DA – khủng hoảng 53% 85% 74% C8, E6, C3
DT – bình thường 72% 90% 83% C9, E6, A1, B1, B12, C1, C3, D3
DT – khủng hoảng 67% 89% 81% C8, E6, C3, B2, B8, C2
Nguồn: Dựa trên công trình nghiên cứu của Sung và cộng sự (1999)

Giá trị tiên đoán được đo lường bằng % tiên đoán đúng, chi- bình phương và phân tích độ
nhạy. Kỹ thuật tăng cường cải tiến tính chính xác của mô hình lên khá nhiều. Tiên đoán của
mô hình phân tích biệt số (DA) và cây quyết định (DT) được diễn tả trong Bảng 10.7, trong
đó:
DA: Phân tích biệt số
DT: Cây quyết định
A1: Tốc độ phát triển tổng tài sản
B1: Tỉ số tổng lợi nhuận so với doanh thu thuần
B2: Tỉ số thu nhập hoạt động so với doanh thu thuần
B8: Tỉ số thu nhập hoạt động thường xuyên so với vốn cổ đông
B12: Cổ tức
C1: Tỉ số vốn cổ đông so với tổng tài sản
C2: Tỉ số cố định/tỉ số vốn cố định
C3: Tỉ số tài sản cố định so với vốn chủ sở hữu và nợ dài hạn
C8: Tỉ số dòng tiền so với nợ phải trả
C9: Tỉ số dòng tiền so với tổng tài sản
D3: Tỉ số tồn kho so với doanh số
D4: Thời gian quay vòng tồn kho/vốn lưu động trung bình
E6: Năng suất của vốn

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 167
Khai thác dữ liệu trong kinh doanh Chương 10

Mô hình cây quyết định đã chứng tỏ tốt hơn khi tiên đoán phá sản trong cả điều kiện bình
thường và điều kiện khủng hoảng. Kiểm định Chi bình phương cho thấy mô hình trong điều
kiện bình thường và trong điều kiện khủng hoảng khác nhau có ý nghĩa. Độ nhạy được định
nghĩa như là phần tiên đoán đúng trong số các trường hợp thực tế đã phá sản. Mô hình điều
kiện khủng hoảng chứng tỏ tốt hơn có ý nghĩa khi tiên đoán phá sản hơn mô hình điều kiện
bình thường.

Phân tích rủi ro đầu tư

Khai thác dữ liệu được được ứng dụng dưới dạng khám phá tri thức hỗ trợ việc phân loại rủi
ro đầu tư theo quốc gia 17. Ứng dụng này áp dụng mô hình cây quyết định và mô hình mạng
thần kinh vào dữ liệu sử dụng 27 biến với 52 quốc gia. Đánh giá rủi ro chuyên gia có sẵn cho
từng quốc gia.

Nhiều nghiên cứu đã áp dụng để đánh giá các rủi ro tài chính. Kết quả hoạt động kinh tế và
các đặc trưng thị trường tài chính của từng quốc gia có ảnh hưởng đến rủi ro đầu tư. Bắt đầu
từ năm 2001 rủi ro gia tăng xuất hiện trên diện rộng do bất ổn chính trị ở châu Phi, bất ổn
công nhân ở Nam Mỹ, phong trào ly khai ở châu Á, và các quốc gia nổi lên từ sự sụp đổ của
các hệ thống cộng sản Đông Âu. Động cơ của khai thác dữ liệu, thay vì phân loại thống kê,
chính là ước muốn nắm bắt kiến thức chuyên gia và tránh được các giả định thống kê giới
hạn.

Wall Street Journal đã phân loại 52 quốc gia thành 5 loại rủi ro trong giữa năm 1997. Tập hợp
27 biến giải thích sự phức tạp của nhiệm vụ khám phá tri thức. Sáu biến bị loại bỏ do ít tương
quan với rủi ro đầu tư. Hai mươi mốt biến sử dụng được trình bày trong Bảng 10.8. Dữ liệu
được phân tích với mô hình cây quyết định và mạng thần kinh.
Bảng 10.8: Các biến liên quan đến đầu tư quốc gia
Loại biến Biến Tên tắt
Chỉ số kinh tế GNP tính trên đầu người GNPc
Tốc độ phát triển thực GDP GDPg
Ước tính tỉ lệ lạm phát INFL
Lãi suất – ngắn hạn INTER
Depth (hay là debt ?) và Vốn hóa thị trường MARKcap
thanh khoản Tổng % vốn hóa (turnover percent of capitalization) TURNOVER
Cổ phần của các công ty công chúng được giao dịch trên thị ADRs
trường tài chính Mỹ (American Depositary Receipt – ADR công
chúng)
Quỹ quốc gia đầu tư ở Mỹ FUNDS
Hiệu quả và giá trị Lãi trong 3 năm RET3Yr$
Tỉ số P/E PE
Tỉ số P/E kỳ hạn trước PEforw
Ước tính phát triển thu nhập EARNproj
Suất cổ tức YIELD
Rủi ro kinh tế và Tiên đoán dài hạn của S&P về tín dụng vãng lai (Curr. credit) SandP.
thị trường Tiên đoán của Moody về lãi suất hiện hành (curr. Rating) MOODY
Độ biến thiên (độ lệch chuẩn) VOLATILITY
Tương quan với Mỹ CORREL
Luật lệ và hiệu quả Điểm đánh giá hiệu quả thanh toán SETTLE
Điểm đánh giá hiệu quả giữ an toàn SAFEKEEP
Chi phí vận hành OPERCOST
Năm trao đổi chứng khoán bắt đầu YEAR

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 168
Khai thác dữ liệu trong kinh doanh Chương 10

Có 5 phân loại (phân cấp) rủi ro:


1. Thị trường an toàn nhất
2. Thị trường phát triển
3. Thị trường mới nổi trưởng thành
4. Thị trường mới nổi mới
5. Thị trường biên

Chỉ có 52 mẫu và 21 biến, khó mà tách thành tập dữ liệu phân tích và tập dữ liệu kiểm tra. Vì
vậy kỹ thuật tăng cường (bootstrap) được sử dụng với “kiểm tra dao xếp”. Kỹ thuật tăng
cường chọn k phần tử của tổng thể cho mẫu kiểm tra. Kiểm tra dao xếp dùng mẫu kiểm tra có
qui mô là 1 phần tử, và thực hiện lần lượt cho từng phần tử của tổng thể lấy ra.

Một vấn đề khác về dữ liệu là các quan sát bị khuyết. Giải thuật C5.0 không cần quan sát bị
khuyết. Đối với phân tích mạng thần kinh, cách tiếp cận đo lường entropy (đã được thảo luận
trong Chương 8) được sử dụng để chuyển các biến định lượng thành các biến phân loại. Giá
trị khuyết được nhận dạng là không thuộc về bất kỳ phân loại nào.

Cây quyết định phân loại thu được được trình bày trong Hình 10.3.

Hai mô hình cây quyết định được áp dụng. Mô hình thứ nhất có tỉ lệ chặt (pruning rate) là
50%, trong khi mô hình thứ hai có tỉ lệ chặt là 75%. Tỉ lệ chặt cao cho ra 1 cây quyết định nhỏ
hơn, súc tích hơn, trong khi tỉ lệ chặt thấp là chính xác hơn.

Ba giải thuật học hỏi mạng thần kinh được áp dụng (cải tiến dần - Backpropagation, mô hình
mờ - fuzzy - ARTMAP, và lượng tử véc tơ học hỏi - learning vector quantization).
Backpropagation là một giải thuật học hỏi mạng thần kinh thông thường. Mô hình mờ fuzzy
kết hợp việc học hỏi không giám sát của lý thuyết cộng hưởng thích nghi (unsupervised
learning of adaptive resonance) với khả năng tổng quát hóa của học hỏi có giám sát. Cách tiếp
cận của mô hình fuzzy được cho là hữu dụng khi gặp dữ liệu khuyết hay nhiễu, như trong
trường hợp này. Mạng thần kinh lượng tử véc tơ học hỏi khai thác sự hiện diện của tiêu chuẩn
quyết định đặc thù để tháo rời tập hợp. Có tổng cộng 18 kiến trúc mạng thần kinh khác nhau
được thực hiện.
Hình 10.3: Cây quyết định về rủi ro đầu tư

GNPc  12150 GNPc  12150

Re t 3Yr $  0.177 Ret3Yr$ > 0.177 Safekeep  90 Safekeep > 90

Re t 3Yr $  0.06 Re t 3Yr $  0.06 VOL  0.283 VOL  0.283 Year  1875 Year  1875

Turnover  70.3 Turnover  70.3 ADRs  6 ADRs  6

Risk3 Risk4 Risk4 Risk4 Risk5 Risk2 Risk2 Risk2 Risk2

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 169
Khai thác dữ liệu trong kinh doanh Chương 10

Kết quả của các mô hình này được trình bày trong Bảng 10.9, so sánh các tiên đoán của các
mô hình với đánh giá của các chuyên gia. Trong trường hợp này giải thuật cây quyết định
chính xác hơn. Mô hình cây quyết định với tỉ lệ chặt thấp có tỉ lệ lỗi ít hơn như đã mong đợi.
Các mô hình mạng thần kinh khác nhau có các sai số khác nhau như trong Bảng 10.9 Mạng
thần kinh tương đối bất lợi khi tập dữ liệu nhỏ như trong trường hợp này. Tuy nhiên các mô
hình cây quyết định đều khá lạc quan khi phân loại rủi ro so với đánh giá của các chuyên gia.
Bảng 10.9: Kết quả phân loại của các mô hình
Tình trạng thực tế 1 2 3 4 5 Độ chính xác Dữ liệu khuyết
C5P50
1 12 0 0 0 0 1.000
2 0 9 0 0 0 1.000
3 0 0 10 1 0 0.909 Korea
4 0 1 0 10 0 0.909 Israel
5 0 0 0 1 8 0.889 Jordan
C5P75
1 12 0 0 0 0 1.000
2 3 6 0 0 0 0.667 Belgium, Japan, Spain
3 0 0 10 1 0 0.909 Korea
4 0 1 0 10 0 0.909 Israel
5 0 0 0 1 8 0.889 Jordan
Backpro
1 11 0 1 0 0 0.917 Ireland
2 1 8 0 0 0 0.889 Belgium
3 0 1 8 2 0 0.727 Brazil, Chile, Portugal
4 0 1 1 8 1 0.727 Indonesia,Taiwan
5 0 0 2 2 5 0.556 Pakistan, Peru
ARTMAP
1 12 0 0 0 0 1.000
2 0 9 0 0 0 1.000
3 0 0 9 2 0 0.818 Brazil, Mexico
4 0 1 1 8 1 0.727 China, Indonesia, Taiwan
5 0 0 2 2 5 0.556 Jordan, Morrocco, Peru, Russia
LVQ
1 10 1 1 0 0 0.833 Ireland
2 0 9 0 0 0 1.000
3 0 1 8 1 1 0.727 Brazil, Greece, Portugal
4 0 0 1 8 2 0.727 China, Indonesia, Taiwan
5 0 0 1 0 8 0.889 Peru
Nguồn: trích từ Becerra và cộng sự (2002)

Ứng dụng khai thác dữ liệu trong bảo hiểm


Khai thác dữ liệu đã hỗ trợ thành công nhiều khía cạnh trong kinh doanh bảo hiểm như phát
hiện giả mạo, bao tiêu (underwriting), tiên đoán không đóng phí, và phân khúc thị trường. Ví
dụ, một công ty bảo hiểm có một hệ thống kho chứa dữ liệu lớn ghi lại chi tiết về mọi giao
dịch và yêu cầu đòi bảo hiểm18. Mục tiêu của phân tích là tiên đoán một cách chính xác chi
phí trung bình của 1 yêu cầu bảo hiểm và tần số, và để xem xét ảnh hưởng của giá cả đối với
tính sinh lợi.

Các quyết định cụ thể là để xác định giá cho các sản phẩm bảo hiểm với mục tiêu gia tăng thị
phần, duy trì các khách hàng hiện hữu, và tăng lợi nhuận. Xác định giá thành công trong
ngành bảo hiểm đòi hỏi phải hiểu có bao nhiêu khách hàng muốn tiếp nối hợp đồng, mức độ
rủi ro của họ, và mức độ nhạy cảm của khách hàng đối với tăng giá. Điều này cần phải xem
xét tương tác giữa các mục tiêu này.

Ứng dụng này khám phá thông tin từ cơ sở dữ liệu theo quy trình 4 bước.
1. Nhận diện vấn đề kinh doanh
2. Phân tích dữ liệu

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 170
Khai thác dữ liệu trong kinh doanh Chương 10

3. Hành động
4. Đo lường kết quả

Trong giai đoạn phân tích dữ liệu, các bước thực hiện bao gồm chuẩn bị dữ liệu, thống kê mô
tả ban đầu, kiểm định giả thuyết, và khám phá tri thức. Cách tiếp cận chính thống này của
khai thác dữ liệu nhằm bảo đảm tính thống nhất của kết quả với các thủ tục và kiến thức kinh
doanh hiện hữu. Thống kê mô tả ban đầu cho phép định hướng với dữ liệu, nhận dạng và xử
lý các dữ liệu bất thường, và cơ hội thiết lập các giả thuyết ban đầu. Một khi phân tích dữ liệu
ban đầu hoàn tất, khám phá tri thức có thể bắt đầu.

Công cụ khai thác dữ liệu được phát triển để đánh giá ảnh hưởng của các thay đổi đối với chi
tiết của chính sách bảo hiểm, bao gồm cả mức phí bảo hiểm. Hệ thống này tiên đoán việc
chấm dứt bảo hiểm, và cho phép phân tích các đề xuất cho hoạt động tiếp thị.

Phân tích duy trì khách hàng


Các mô hình khai thác dữ liệu đầu tiên xem xét việc duy trì khách hàng. Dĩ nhiên khả năng
tiên đoán đáp ứng của khách hàng đối với sự thay đổi về giá là vấn đề quan trọng đầu tiên.
Khai thác dữ liệu có thể cung cấp tiên đoán tốt hơn phản ứng của khách hàng về các thay đổi
này.

Thu thập và tiền xử lý dữ liệu


Tập mẫu bao gồm hơn 20.000 hợp đồng bảo hiểm xe ô tô sẽ đến hạn cần ký tiếp trong một
tháng nào đó. Tất cả những người chủ hợp đồng được liên hệ bằng thư 1 tháng trước khi
tháng kết thúc hợp đồng, và lưu ý họ rằng hợp đồng của họ đến hạn ký tiếp, và thông báo phí
bảo hiểm cho năm tới. Hơn 7% mẫu này không ký tiếp hợp đồng và vì vậy chấm dứt bảo
hiểm. Thu thập thông tin chi tiết về từng người chủ hợp đồng bao gồm thông tin cá nhân, phí
bảo hiểm, giá trị bảo hiểm, lịch sử người mua bảo hiểm, và các thông tin về chêch lệch giữa
phí bảo hiểm và giá trị bảo đảm giữa hợp đồng hiện hữu và hợp đồng tái ký.

Các nhà phân tích đã gặp ban giám đốc để thảo luận tìm hiểu các lý do chấm dứt hợp đồng.
Có ba yếu tố chính được ban giám đốc nhận diện là: giá phí, dịch vụ và giá trị bảo đảm cho
xe. Phân tích thống kê sơ bộ được tiến hành để thăm dò khả năng ảnh hưởng của từng yếu tố
này, kiểm tra ý kiến về giá phí và giá trị bảo đảm. Kết quả là giá trị bảo đảm của xe lại không
quan trọng. Những yếu tố khác như tuổi, kinh doanh mới, và thời hạn hợp đồng cũng không có
tác dụng dự đoán.

Khai thác dữ liệu


SAS Enterprise Miner được dùng, cho phép xây dựng sơ đồ quy trình kết nối các dữ liệu,
chọn biến, chuyển đổi, phân nhóm, và mô hình hóa. Công cụ thăm dò dữ liệu nhận diện được
một số biến có liên hệ ít với biến phụ thuộc. Ba biến nhị phân, 2 biến phân loại, và 8 biến liên
tục được sử dụng trong nghiên cứu như mô tả trong Bảng 10.10.
Bảng 10.10: Các biến trong phân tích duy trì khách hàng
Biến Kiểu biến Chuyển đổi
Hợp đồng mới Nhị phân
Giới tính Nhị phân
Chấm dứt hợp đồng Nhị phân (biến phụ thuộc)
Mã số bưu điện Phân loại Gom lại thành 10 nhóm
Đánh giá Phân loại Gom lại thành 2 nhóm
Tuổi của xe Liên tục Gom lại thành 4 nhóm
Số năm đánh giá Liên tục

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 171
Khai thác dữ liệu trong kinh doanh Chương 10

Tuổi chủ hợp đồng Liên tục Gom lại thành 5 nhóm
Phí bảo hiểm Liên tục Chuyển đổi thành dạng log
Chênh lệch phí bảo hiểm Liên tục
Trị giá bảo hiểm Liên tục Chuyển đổi thành dạng log
Chênh lệch trị giá bảo hiểm Liên tục
Số năm có hợp đồng Liên tục

Chuyển đổi thành dạng log được dùng vì dữ liệu bị lệch rất nhiều, và các biến phân nhóm
được chuyển đổi thành biến nhị phân. Biến phụ thuộc là “Chấm dứt”. Sau khi đổi dữ liệu
phân nhóm thành biến nhị phân, có 29 biến độc lập.

Dữ liệu được tách thành tập phân tích và tập kiểm tra bằng nút phân hoạch dữ liệu (Data
Partitioning node). Dữ liệu trong tập phân tích được phân tích bằng nút đánh giá với hồi qui
logistic, cây quyết định và mạng thần kinh.

Tập kiểm tra cho thấy đối với dữ liệu này thì mô hình mạng thần kinh phù hợp nhất. 10% cao
nhất của danh sách các quan sát dùng để kiểm tra mô hình mạng thần kinh đã nhận ra 50% tất
cả trường hợp chấm dứt thúc hợp đồng. Tương ứng thì 10% của mô hình hồi qui chỉ nhận ra
40%, và mô hình cây quyết định nhận ra chỉ 28%. Tuy nhiên mạng thần kinh có tỉ lệ thấp
những trường hợp bị phân loại là có khả năng chấm dứt hợp đồng. Hệ thống này cho phép
điều chỉnh các tham số mô hình để cải thiện tính năng.

Hành động
Kết quả phân tích trước được sử dụng để tạo ra chính sách giá thống nhất, dựa vào tương tác
giữa tốc độ phát triển, số vụ đòi quyền lợi bảo hiểm, và lợi nhuận. Kho chứa dữ liệu bao gồm
các dữ liệu về chính sách giá và lợi nhuận hiện hữu, cũng như kiểu mẫu phát triển và kiểu
mẫu số vụ đòi quyền lợi bảo hiểm. Tri thức thu được từ hoạt động khai thác dữ liệu được
dùng để cân bằng danh mục chính sách để đạt được lợi nhuận, tốc độ phát triển và duy trì
khách hàng tốt hơn.

Phân tích các vụ đòi quyền lợi bảo hiểm


Phân tích các vụ đòi quyền lợi bảo hiểm thì ít cấu trúc hơn phân tích duy trì khách hàng, và
đòi hỏi một cách tiếp cận ít định hướng hơn. Do vậy phân tích dữ liệu để tìm ra các xu hướng
và kiểu mẫu ẩn là cần thiết. Trong trường hợp này tốc độ phát triển gần đây của số lượng chủ
hợp đồng bảo hiểm dẫn tới lợi nhuận thấp của công ty. Hiểu được mối quan hệ giữa nguyên
nhân và kết quả là nền tảng để hiểu các quyết định kinh doanh nào là phù hợp.

Tốc độ phát triển các hợp đồng được phân tích thống kê giả định rằng số vụ đòi quyền lợi bảo
hiểm và quy mô quyền lợi bảo hiểm có phân phối khác nhau. Trong trường hợp này, phân tích
phân nhóm được dùng để mô hình hóa tốt hơn hiệu quả của từng nhóm có hợp đồng bảo
hiểm.

Các chỉ tiêu đánh giá hiệu quả chủ yếu


Lợi nhuận trong bảo hiểm thường được diễn tả bằng tỉ số chi phí – tổng chi phí bồi thường
chia cho tổng số phí bảo hiểm thu được. Tỉ số tần số bồi thường là số lần bồi thường chia cho
số hợp đồng có rủi ro (số trường hợp có thể đòi bồi thường). Lợi nhuận được cải thiện bằng
cách giảm tần số bồi thường, hay giảm chi phí bồi thường so với số phí thu được.

Thu thập và tiền xử lý dữ liệu


Dữ liệu được rút trích từ kho chứa dữ liệu đối với các hợp đồng phí bảo hiểm được đóng
trong quý thứ nhất trong khoảng thời gian 3 năm. Điều này có nghĩa là các hợp đồng trong

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 172
Khai thác dữ liệu trong kinh doanh Chương 10

khoảng thời gian này gia hạn bằng các hợp đồng mới, và kết thúc bằng cách chấm dứt. Dữ
liệu về từng chủ hợp đồng cũng như hành vi đòi bồi thường của năm trước đó có sẵn. Các
biến quan trọng của tỉ số chi phí và tỉ số tần số đòi bồi thường được tính toán cho từng quan
sát. Quy mô mẫu cho từng quý đều trên 100.000.

Phân tích và ảnh hưởng của tốc độ phát triển


Các thống kê mô tả cho thấy phát triển khác thường của các hợp đồng trong 2 năm qua đối
với những người trẻ (dưới 22 tuổi) và với những trường hợp có ô tô bảo hiểm trên 40.000 đô
la.

Phân nhóm
Tiên đoán chi phí bồi thường cho từng chủ hợp đồng bảo hiểm sẽ là vô nghĩa vì phần lớn các
yêu cầu bồi thường không thể tiên đoán được. Vì vậy khai thác dữ liệu có định hướng là
không phù hợp. Thay vì vậy mục tiêu là tiên đoán hành vi đòi bảo hiểm của từng nhóm chủ
hợp đồng. Phân nhóm đòi hỏi xác định trước số lượng phân nhóm. Quá ít nhóm sẽ không có
khả năng phân biệt, trong khi quá nhiều nhóm sẽ dẫn đến mỗi nhóm sẽ có quá ít quan sát. Sau
khi thử nghiệm, nghiên cứu đã sử dụng 50 nhóm. Sử dụng giải thuật k-mean nhận ra nhiều
nhóm có tỉ số chi phí hay tần số bồi thường cao bất thường. Bằng cách kiểm tra giữa 2 năm,
xác định được độ ổn định của từng nhóm.

SO SÁNH CÁC PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU

Hầu hết các phương pháp khai thác dữ liệu chính trong kinh doanh đã được tham khảo trong
các ví dụ ứng dụng vừa rồi. Sung và cộng sự đã so sánh một số phương pháp này và chỉ ra các
thuận lợi và bất lợi, trong đó Bảng 10.11 trình bày phân tích này và mở rộng thêm cho một số
kỹ thuật khai thác dữ liệu khác.

Phân tích lập nhóm hấp dẫn ở điểm nó có thể tính toán tự động (mặc dù cần thời gian tính
toán). Nó có thể áp dụng cho bất kỳ loại dữ liệu, như đã minh họa trong ví dụ. Phân tích lập
nhóm cũng dễ áp dụng. Tuy nhiên việc sử dụng phương pháp này đòi hỏi chọn lựa từ các
thước đo khoảng cách khác nhau, và cần phải gia trọng để phản ánh tầm quan trọng của các
biến. Các kết quả khá nhạy đối với những thước đo sử dụng. Phân tích lập nhóm phù hợp khi
gặp tập dữ liệu lớn, phức tạp với số lượng biến nhiều và nhiều nhóm kết quả được nhận ra. Nó
thường được sử dụng như dạng phân tích đầu tiên. Một khi các nhóm được phân lập, phương
pháp tìm kiếm kiểu mẫu thường được dùng để khám phá ra các quy luật và kiểu mẫu.

Phân tích biệt số đã được sử dụng phổ biến nhất trong tiên đoán phá sản. Giải thuật mạng thần
kinh chứng tỏ có thể chính xác cao, nhưng khó áp dụng đối với dữ liệu mới, hoặc khó khi cần
phải giải thích ý nghĩa mô hình. Mạng thần kinh áp dụng tốt trừ khi có nhiều đặc tính đầu vào.
Nếu có quá nhiều đặc tính thì sẽ khó cho mạng thần kinh tìm ra các kiểu mẫu, vì vậy kéo dài
giai đoạn phân tích với xác suất hội tụ thấp. Giải thuật gen cũng được sử dụng trong khái thác
dữ liệu, thường là hỗ trợ hoạt động của các giải thuật khác.

Phân tích cây quyết định đòi hỏi chỉ một giả định duy nhất là các nhóm là rời rạc, không trùng
nhau và có thể phân biệt được. Phân tích này cung cấp khả năng tạo ra các quy luật có thể
hiểu được, có thể phân loại với ít tính toán và tính toán dễ dàng. Phân tích cây quyết định có
thể sử dụng cả biến liên tục và biến rời rạc, và cho biết rõ tầm quan trọng của biến trong tiên
đoán và phân loại. Cho dù có những bất lợi như vậy, phương pháp cây quyết định là lựa chọn
tốt khi nhiệm vụ khai thác dữ liệu quan tâm đến phân loại các hồ sơ hay tiên đoán các kết quả.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 173
Khai thác dữ liệu trong kinh doanh Chương 10

Hồi qui có lẽ là công cụ phân tích sử dụng nhiều nhất trong lịch sử. Lợi thế chính của hồi qui
là nhiều người đã hiểu về các mô hình hồi qui và đã sử dụng các kết quả của nó. Hồi qui
logistic rất phù hợp với khai thác dữ liệu vì tính chất phân loại của biến kết quả thường được
sử dụng. Trong khi hồi qui là công cụ phân tích thống kê tuyệt vời, nó lại đòi hỏi giả thuyết về
các tham số. Các sai số/phần dư được giả định là có phân phối chuẩn, không tự tương quan
(các sai số không tương quan với nhau), không có hiện tượng phương sai không đồng đều (ví
dụ như các sai số không lớn lên theo thời gian) và không có đa cộng tuyến (các biến độc lập
không chứa đựng nhiều những nội dung thông tin trùng lắp). Hồi qui có thể xử lý các các dữ
liệu phi tuyến, nhưng chỉ khi người xây dựng mô hình hiểu những dữ liệu phi tuyến, thực hiện
các phép biến đổi tuyến tính phù hợp. Luôn phải đánh đổi, nếu dữ liệu phù hợp với mô hình
tuyến tính, hồi qui có khuynh hướng tốt hơn với mô hình mạng thần kinh. Tuy nhiên nếu có
quan hệ phi tuyến hoặc dữ liệu phức tạp, thì mạng thần kinh (và thường là giải thuật gen) lại
có khuynh hướng tốt hơn hồi qui. Lợi thế tương đối của hồi qui so với mạng thần kinh là hồi
qui cung cấp công thức dễ hiểu trong khi mô hình mạng thần kinh rất phức tạp.

Bảng 10.11: So sánh các phương pháp khai thác dữ liệu 19


Phương pháp điểm mạnh điểm yếu Các giả định
Phân tích cụm/lập Có thể tạo ra công thức dễ hiểu. Thời gian tính toán tăng lên nhiều khi
nhóm Có thể ứng dụng/chạy tự động. dữ liệu lớn.
Đòi hỏi phải biết các tham số, các kết
quả nhạy cảm với quyết định chọn.
Phân tích Có khả năng kết hợp nhiều tỉ số tài Vi phạm các giả định có phân phối Giả định có phân phối chuẩn
biệt số chính đồng thời. chuẩn và các biến độc lập với nhau. đa biến trong các nhóm.
Có cả các hệ số để kết hợp các biến Giảm vấn đề đa hướng Giả định các hiệp phương sai
độc lập. Có nhiều cách giải thích tầm quan bằng nhau giữa tất các nhóm.
Có thể ứng dụng kết quả cho các dữ trọng của các biến. Các nhóm rời rạc, không trùng
liệu mới Khó khăn trong việc xác định giải nhau và có thể nhận dạng.
thuật phân loại.
Khó khăn trong việc giải thích các
kiểm định tiến đoán theo chuỗi thời
gian.
Mô hình mạng Có thể giải quyết nhiều vấn đề đa Đòi hỏi dữ liệu đầu vào dưới dạng 0 Các nhóm rời rạc, không trùng
thần kinh dạng khác nhau. và 1. nhau và có thể nhận dạng.
Cho kết quả tốt trong các lĩnh vực Không giải thích được kết quả.
phức tạp (phi tuyến tính) Có thể hội tụ sớm về một giải pháp
Có thể sử dụng cả biến liên tục lẫn kém
biến phân loại.
Có nhiều phần mềm có sẵn.
Giải thuật gen Cho ra các kết quả có thể giải thích Khó khăn khi mã hóa nhiều vấn đề. Các nhóm rời rạc, không trùng
được. Không đưa ra bảo đảm về tính tối ưu. nhau và có thể nhận dạng.
Dễ áp dụng các kết quả. Tính toán đắt tiền nếu có hàm bội.
Có thể sử dụng nhiều loại dữ liệu. Ít có các phần mềm thương mại
Cho phép tối ưu hóa.
Có thể tích hợp với mạng thần kinh.
Cây quyết định Có thể tạo ra các luật dễ hiểu. Vài giải thuật chỉ làm việc trên các Các nhóm rời rạc, không trùng
Có thể phân loại mà ít tính toán. nhóm mục tiêu có giá trị nhị phân. nhau và có thể nhận dạng.
Các tính toán đơn giản. Hầu hết các giải thuật chỉ xem xét
Có thể xử lý các dữ liệu liên tục và một vùng (field) đơn ở từng thời gian.
phân loại. Tính toán đắt tiền.
Chỉ rõ tầm quan trọng của các biến.
Hồi qui Có thể đưa ra công thức dễ hiểu. Thời gian tính toán tăng lên khi có Giả định phần dư có phân phối
Được nhiều người hiểu. nhiều dữ liệu. chuẩn.
Được sử dụng trong nhiều lý thuyết Không tốt lắm nếu dữ liệu không Không có tự tương quan,
tuyến tính. phương sai phóng đại hay đa
cộng tuyến.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 174
Khai thác dữ liệu trong kinh doanh Chương 10

TÓM TẮT
Các ứng dụng của khai thác dữ liệu rất rộng. Chương này đã đưa ra các ví dụ cụ thể về một số
ứng dụng chính trong kinh doanh của khai thác dữ liệu. Chúng ta bắt đầu với ví dụ khai thác
dữ liệu của Fingerhut hỗ trợ bán hàng qua catalog. Ứng dụng này là một minh hoạ xuất sắc về
khái niệm Lift được ứng dụng trong kinh doanh bán lẻ như thế nào. Chúng ta cũng đã đi qua
năm ứng dụng chính khác, tìm cách giải thích nhiều chức năng, kỹ thuật thống kê, và phương
pháp khai thác dữ liệu khác nhau. Hầu hết những nghiên cứu này đã áp dụng nhiều giải thuật
(nhiều phương pháp khai thác dữ liệu). Các phần mềm như Enterprise Miner có nhiều giải
thuật có sẵn, khuyến khích những người khai thác dữ liệu tìm ra phương pháp tốt nhất cho
một tập dữ liệu.
Phần thứ hai của cuốn sách trình bày những phương pháp này với những ví dụ minh hoạ nhỏ.
Những ví dụ nhỏ này có thể chạy trên Excel hay những phần mềm bảng tính khác có hỗ trợ
thống kê. Các công ty có thể thực hiện khai thác dữ liệu mà không cần phải mua những phần
mềm khai thác dữ liệu quy mô lớn. Vì vậy triết lý của của chúng tôi là hiểu phương pháp sẽ
giúp người sử dụng hiểu tốt hơn những gì họ đang làm khi ứng dụng khai thác dữ liệu.

Chú thích thuật ngữ


Boosting (kỹ thuật tăng cường): thủ tục áp dụng các mô hình khác nhau và sử dụng các mô
hình chọn lọc để kiểm tra tiên đoán một nhóm nào đó.
Bootstrapping (chọn mẫu từ mẫu đã khảo sát): Kỹ thuật lấy mẫu để tạo ra hiểu biết tốt hơn từ
một tập mẫu nhỏ.
Churn (bỏ dịch vụ): Số khách hàng bỏ dịch vụ, đặc biệt là số khách hàng mất đi trong ngành
điện thoại.
Cluster analysis (phân tích cụm/ phân tích lập nhóm): Kỹ thuật thống kê để nhóm các dữ liệu
thành những tập hợp không trùng nhau.
Clustering (lập nhóm): Chia dữ liệu thành các nhóm.
Customer relationship management – CRM (quản lý quan hệ khách hàng): Dùng khai thác
dữ liệu để nhận diện chi tiết về khách hàng, bao gồm giá trị của khách hàng đối với tổ chức và
các đặc trưng mà khách hàng tìm kiếm trong sản phẩm.
Decision tree model (Mô hình cây quyết định): Tập hợp các luật để phân chia dữ liệu thành
một số xác định các kết luận có thể xảy ra.
Discriminant analysis (Phân tích biệt số): Kỹ thuật thống kê dùng điểm số của phương trình
hồi qui để xác định quan sát vào các nhóm.
Jackknifing (Phân tích kiểu dao xếp): Việc dùng chọn mẫu thống kê cao cấp để tạo ra hiểu
biết tốt hơn từ tập mẫu quan sát quy mô nhỏ.
Lift: Chênh lệch biên trong tỉ lệ đáp ứng đối với xúc tiến bán hàng của một nhóm/phân khúc
khách hàng với tỉ lệ đáp ứng trung bình.
Micromarketing (Tiếp thị vi mô): Tiếp thị tập trung nhắm vào 1 nhóm nhỏ trong toàn bộ dân
số. Nhóm này được kỳ vọng rằng có tỉ lệ mua sản phẩm cao hơn tỉ lệ chung của dân số.
Pattern search (tìm kiếm kiểu mẫu): Nhận diện các mối quan hệ trong dữ liệu.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 175
Khai thác dữ liệu trong kinh doanh Chương 10

Bài tập
1. Vào thư viện và/hay Internet để tìm thông tin cập nhật về trường hợp Fingerhut hoặc
những kinh doanh dựa trên phân khúc khách hàng có liên quan.
2. Hãy mô tả khái niệm Lift. Khái niệm này hữu ích đối với hoạt động tiếp thị của các tổ
chức như thế nào?
3. Phương pháp RFM khác với lift như thế nào?
4. Có dữ liệu về 10 loại tiểu sử khách hàng như sau, mỗi loại tạo ra cho công ty lợi nhuận
khác nhau. Hãy tính toán và vẽ đường lift
Tiểu sử khách hàng Lợi nhuận Tiểu sử khách hàng Lợi nhuận
A 12 F 6
B 15 G 4
C 8 H 9
D 7 I 18
E 10 J 11

5. Công ty của bạn gửi thư mời làm thẻ tín dụng đến nhiều người. Chi phí gửi cho 1
người tốn tổng cộng 6$. Bạn đã thu thập dữ liệu và có thể nhận diện 10 nhóm đối
tượng với tỉ lệ đáp ứng đã trả lời. Công ty của bạn tính toán rằng mỗi đáp ứng thuận
lợi sẽ có 100$ lợi nhuận. Hãy tìm chính sách tối ưu.
Tiểu sử khách hàng Tỉ lệ đáp ứng Tiểu sử khách hàng Tỉ lệ đáp ứng
A 0,05 F 0,04
B 0,12 G 0,11
C 0,15 H 0,09
D 0,10 I 0,03
E 0,08 J 0,13

6. Tương quan giữa quản lý quan hệ khách hàng và khai thác dữ liệu như thế nào?
7. Hãy thảo luận các vấn đề đạo đức có liên quan trong quản lý quan hệ khách hàng
(CRM). CRM có thể ảnh hưởng tiêu cực đến xã hội như thế nào?
8. Những nguồn nào làm cho tính toán giá trị suốt đời của 1 khách hàng không chính
xác?
9. Hãy mô tả đánh giá điểm tín dụng. Có vấn đề đạo đức nào liên quan đến ứng dụng này
không?
10. Các sòng bạc là những đơn vị sử dụng khai thác dữ liệu. Họ dùng khai thác dữ liệu để
làm gì? Có vấn đề đạo đức nào nào không?
11. Trong ví dụ đầu tư vào quốc gia nào, các kết quả phân loại đã cho trong Bảng 10.8.
Hãy tính toán tỉ lệ chính xác chung cho từng phương pháp trong năm phương pháp.
12. Nếu có phương pháp nào chính xác hơn một phương pháp khác trong Bảng 10.8, thì
tại sao những phương pháp có đo lường ít chính xác hơn vẫn thu hút?
13. Hãy thảo luận kỹ điểm mạnh của từng phương pháp phân tích biệt số, mô hình mạng
thần kinh, giải thuật gen, mô hình cây quyết định, hồi qui và phân tích lập nhóm so với
các phương pháp còn lại.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 176
Khai thác dữ liệu trong kinh doanh Chương 10

Kết chú

1
J.H. Drew, D.R. Mani, A.L. Betz, và P. Datta, “Targeting Customers With Statistical and Data
Mining Techniques”, Journal of Service Research, volume 3, number 1, 2001, pp. 205-219; M. S.
Garver, “Using Data Mining for Customer Satisfaction Research,” Marketing Research, volume 14,
number 1, 2002, pp. 8-17.
2
A.M. Cowan, “Data Mining in Finance: Advances in Relational and Hybrid Methods”, International
Journal of Forecasting, volume 18, number 1, 2002, pp. 155-156.
3
N.M. Adams, D.J. Hand and R.J. Till, “Mining for Classes and Patterns in Behavioural Data”, The
Journal of Operational Research Society, volume 52, number 9, 2001, pp. 1017-1024.
4
T.K. Sung, N. Chang, and G. Lee, “Dynamics of Modeling in Data Mining: Interpretive Approach to
Bankruptcy Prediction”, Journal of Management Information Systems, volume 16, number 1, 1999,
pp. 63-85.
5
K.A. Smith, R.J. Willis and M. Brooks, “An Analysis of Customer Retention and Insurance Claim
Patterns Using Data Mining: A Case Study”, The Journal of the Operational Research Society, volume
51, number 5, 2000, pp. 532-541.
6
. Drew, Mani, Betz, and Datta, op. cit.; Garver, op. cit.; Adams, Hand, and Till, op. cit.; Sung, Chang,
and Lee, op. cit.; I. Becerra-Fernandez, S. H. Zanakis, and S. Walczak, “Knowledge Discovery
Techniques for Predicting Country Investment Risk,” Computers and Industrial Engineering, volume
43, 2002, pp. 787-800; Smith, Willis, and Brooks, op. cit.
. C.Apte, B. Liu, E. P. D. Pednault, and P. Smyth, “Business Applications of Data Mining,”
7

Communications of the ACM, volume 45, number 8, 2002, pp. 49-53.


8
. S. Deck, “Mining Your Business,” Computerworld, volume 33, number 20, May 17, 1999, pp. 94-98
9
. S. Chiger, “Bragging Rights,” Catalog Age, volume 15, number 9, August 1998, pp. 1, 66+.
10
. D. Cambell, R. Erdahl, D. Johnson, E. Bibelnieks, M. Haydock, M. Bullock, and H. Crowder,
“Optimizing Customer Mail Streams at Fingerhut,” Interfaces, volume 31, number 1, 2001, pp. 77-90.
. V.S.Y.Lo, “The True Lift Model-A Novel Data Mining Approach to Response Modeling in
11

Database Marketing,” ACM SIGKDD, volume 4, issue 2, 2003, pp. 78-86.


. M. Fitzpatrick, “Statistical Analysis for Direct Marketers-In Plain English,” Direct Marketing,
12

volume 64, issue 4, 2001, pp. 54-56.


. R. Elsner, M. Krafft, and A. Huchzermeier, “Optimizing Rhenania’s Mail Order business Through
13

Dynamic Multilevel Modeling (DMLM),” Interfaces, volume 33, number 1, 2003, pp. 50-66.
14
. Drew, Mani, Betz, and Datta, op. cit.; Garver, op. cit.
. S. Patton, “The Truth about CRM,” CIO Magazine, May 1, 2001,
15

http://www.cio.com/archive/050101/truth_content.html.
16
. Sung, Chang, and Lee, op. cit.
17
. Becerra-Fernandez, Zanakis, and Walczak, op. cit.
18
. Smith, Willis, and Brooks, op. cit.
19
. Sung, Chang, and Lee, op. cit.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 177

You might also like