You are on page 1of 22

Khai thác dữ liệu trong kinh doanh Chương 6

CHƯƠNG 6

THUẬT TOÁN HỒI QUI TRONG KHAI THÁC DỮ LIỆU


Trong chương này:
- Mô tả hồi qui OLS và hồi qui Logistic
- Mô tả phân tích biệt số tuyến tính và phân tích biệt số centroid
- Minh họa kĩ thuật trên các tập dữ liệu nhỏ
- Xem xét ứng dụng từng mô hình trong các tình huống thực tế
- Trình bày ứng dụng của các mô hình này trên các tập dữ liệu lớn.

Công nghệ điện thoại di động là một bước tiến quan trọng trong thời đại chúng ta. Việc sử
dụng điện thoại di động đã phổ biến khắp thế giới, đặc biệt ở các nước như Hàn Quốc hay
Phần Lan. Những thiết bị bỏ túi này ngoài cung cấp dịch vụ điện thoại (với chất lượng khác
nhau) còn kèm với chương trình chơi game chất lượng cao, cùng truy cập đáng tin cậy giá cả
thị trường cổ phiếu và các dịch vụ khác liên quan đến Internet như mobile banking, GPS, tìm
đường...

Cũng như nhiều tổ chức bán lẻ khác các công ty cung cấp dịch vụ điện thoại cần xem xét tỉ lệ
rời bỏ (churn) của khách hàng. Các công ty dịch vụ điện thoại chính là một trong các tổ chức
dịch vụ đầu tiên quan tâm đến churn của khách hàng khi công ty độc quyền Điện thoại và điện
báo Mỹ (AT&T) chia tách vào những năm 1980. Mức độ cạnh tranh trong ngành này rất cao,
với MCI đưa ra chương trình « bạn bè và gia đình », tìm kiếm tất cả các liên hệ bạn bè và gia
đình của các khách hàng hiện có trong hệ thống của họ. Các dịch vụ điện thoại cạnh tranh đối
phó lại bằng các chương trình của họ và các khách hàng thì tha hồ hưởng lợi qua các khuyến
mãi dịch vụ ban đầu hấp dẫn họ nên chuyển từ công ty điện thoại này qua công ty điện thoại
khác sau vài tháng. Các công ty điện thoại nhanh chóng phát hiện ra rằng thu hút khách hàng
mới không phải là câu trả lời cho tất cả các vấn đề của họ. Giữ chân những khách hành đem
lại lợi nhuận cao mới là chìa khóa cho sự thành công.

Để ra được các quyết định hợp lý, các công ty này cần hiểu rõ hơn về cơ sở khách hàng của
họ. Loại phân tích này được hỗ trợ tốt bởi các mô hình có thể áp dụng cho tập dữ liệu lớn, cho
phép công ty phân chia khách hàng theo các đặc trưng vào trong những phân khúc khác nhau,
và ước lượng được lợi nhuận kì vọng dựa trên chu kỳ sống của tài khoản của khách hàng.
Việc này có thể liên kết với các chương trình marketing để đưa ra các gói dịch vụ hấp dẫn cho
từng loại khách hàng. Một vài nhóm khách hàng sẽ không có chút lợi nhuận nào. Hiểu được
điều này giúp cho các công ty cung cấp dịch vụ tránh được việc lãng phí nguồn lực marketing
vào một số khách hàng nhất định.

Hồi qui là công cụ thống kê cơ bản. Trong khai thác dữ liệu nó là một trong những công cụ
phân tích thống kê căn bản, được sử dụng trong ứng dụng phân biệt thông qua hàm hồi qui
logistic và phân tích biệt số, cũng như dự đoán cho dữ liệu liên tục thông qua phương pháp
bình phương bé nhất và các dạng khác. Cũng vì thế hồi qui được dạy trong một môn học có 3
hay nhiều hơn 3 tín chỉ. Chúng ta không hy vọng nắm được toàn bộ các vấn đề nền tảng trong
hồi qui. Tuy nhiên trong nội dung này chúng ta tìm hiểu cách thức hồi qui được sử dụng trong
bối cảnh khai thác dữ liệu.

Hồi qui được sử dụng với nhiều loại dữ liệu đa dạng. Nếu dữ liệu là dạng chuỗi thời gian, kết
quả hồi qui thường dùng cho mục đích dự báo. Hồi qui có thể sử dụng để xây dựng mô hình
dự báo cho những loại dữ liệu khác nhau, và hồi qui có thể được sử dụng dưới một vài dạng

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 95
Khai thác dữ liệu trong kinh doanh Chương 6

khác nhau. Mô hình hồi qui là một phần chính trong các công cụ sẵn có để hỗ trợ cho việc xây
dựng mô hình trong qui trình khai thác dữ liệu.

Có lẽ các thuật toán khai thác dữ liệu được sử dụng rộng rãi nhất là tìm mô hình phù hợp với
dữ liệu, theo ý nghĩa của hồi qui. Hồi qui là một công cụ căn bản của phân tích thống kê để
mô tả mối quan hệ giữa biến phụ thuộc với một hoặc nhiều biến độc lập. Mô hình hồi qui
được sử dụng cho nhiều mục đích, bao gồm giải thích và dự đoán. Hồi qui tuyến tính và hồi
qui logistic đều là các công cụ căn bản trong hầu hết các phần mềm khai thác dữ liệu phổ
dụng. Dữ liệu phi tuyến có thể được chuyển đổi thành dữ liệu tuyến tính hữu ích và dùng hồi
qui tuyến tính để phân tích nó. Một vài dạng đặc biệt của hồi qui phi tuyến cũng tồn tại. Mô
hình mạng thần kinh cũng được sử dụng rộng rãi cho các dạng tương tự của mô hình. Cả phân
tích hồi qui và mạng thần kinh đều yêu cầu dữ liệu được biểu diễn dạng số (hoặc ít nhất là
dạng nhị phân 0-1 của biến giả). Khác biệt cơ bản về vận hành giữa hồi qui và mạng thần kinh
là hồi qui cung cấp phương trình với nền tảng lý thuyết vững chắc đi sau đó hỗ trợ cho việc áp
dụng và suy diễn mô hình đó. Mạng thần kinh không cung cấp mô hình phục vụ cho việc suy
diễn và thường chỉ được sử dụng trong phần mềm mà nó được xây dựng nên. Trong bối cảnh
đó mạng thần kinh tỏ ra là « hộp đen » với người dùng khi phân biệt hoặc dự đoán vấn đề mà
không có một sự giải thích nào cả. Ở đây dĩ nhiên là có mô hình ẩn sau sự phân biệt và dự
đoán này nhưng mô hình quá phức tạp để có thể in ra hay phân tích.

MÔ HÌNH HỒI QUI

Hồi qui bình phương bé nhất OLS là mô hình có dạng:


Y = 0 + 1X1 + 2X2 +…+nXn +
Trong đó :
Y là biến phụ thuộc (là biến được dự đoán)
Xn là biến độc lập (biến giải thích) thứ n
0 là hệ số chặn (hằng số)
n là hệ số hồi qui thứ n cho biến độc lập thứ n
 là sai số

Hồi qui OLS có dạng đường thẳng (với hệ số chặn và các hệ số độ dốc n), tối thiểu hóa tổng
sai số bình phương i cho toàn bộ quan sát của tập dữ liệu. Ý tưởng là xem xét dữ liệu quá
khứ để xác định hệ số  hợp lý nhất. Mô hình cung cấp các giá trị tương lai có khả năng xảy
ra của biến phụ thuộc khi cho trước các giá trị của biến độc lập Xn. Cách tiếp cận này giả định
có mối quan hệ tuyến tính, và sai số có phân phối chuẩn xung quanh trung bình zero, không
có xu hướng rõ rệt. Trong khi các giả định này thường không thật, hồi qui thường vẫn hấp dẫn
vì sự có mặt của các phần mềm thống kê rất phổ biến cũng như sự phát triển cao của lý thuyết
thống kê. Phần mềm thống kê cung cấp luôn xác suất để các tham số ước lượng khác 0.

Chúng ta có thể áp dụng hồi qui cho việc ngoại suy đường xu thế. Đây là một ứng dụng rất
hữu dụng của hồi qui. Ví dụ chúng ta đang quản lý một tổ chức chuyên hỗ trợ tận nơi các trục
trặc của hệ thống máy tính. Tổ chức trải qua một thời kì tăng trưởng, khiến cho khó mà lường
trước cần phải cung cấp bao nhiêu dịch vụ hỗ trợ máy tính cá nhân. Giả sử dữ liệu trong 40
tuần trước đây là có sẵn. Trong giai đoạn dữ liệu quá khứ này tổ chức phát triển từ 30 nhân
viên lên thành 300, một cách khá đều đặn. Biến phụ thuộc Y là số yêu cầu hỗ trợ, biến độc lập
là thời gian, và các tuần lễ được đánh số từ 1 cho tuần đầu tiên đến 40 cho tuần cuối cùng. Dữ
liệu được cho trong Bảng 6.1.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 96
Khai thác dữ liệu trong kinh doanh Chương 6

Bảng 6.1 Dữ liệu chuỗi thời gian


Tuần Yêu cầu Tuần Yêu cầu Tuần Yêu cầu Tuần Yêu cầu
1 10 11 62 21 92 31 160
2 3 12 68 22 110 32 173
3 5 13 56 23 123 33 168
4 15 14 84 24 126 34 164
5 22 15 67 25 136 35 182
6 38 16 87 26 130 36 175
7 34 17 100 27 134 37 190
8 49 18 88 28 140 38 192
9 45 19 101 29 157 39 199
10 59 20 98 30 150 40 204

Số yêu cầu tăng từ 10 trong tuần lễ đầu tiên lên 204 trong tuần 40. Đồ thị hình 6.1 giúp ta hiểu
vấn đề hơn.
Hình 6.1 Đồ thị chuỗi thời gian
Yêu cầu
250

200

150
Yêu cầu

100

50

0
0 5 10 15 20 25 30 35 40 45
Tuần

Số yêu cầu tăng khá đều đặn. Vấn đề là số nhu cầu hỗ trợ máy tính cá nhân được phân công
cho nhân viên. Trong vài tuần lễ đầu, một người có thể xử lý hết các yêu cầu khá dễ dàng.
Tuy nhiên một người chỉ có thể xử lý khoảng 20 yêu cầu mỗi tuần (xem xét đến thời gian
trung bình được yêu cầu để giải quyết một vấn đề, và bản chất không ổn định của các yêu cầu
đến). Vào tuần thứ 40 rõ ràng là 10 người được yêu cầu để bố trí đủ phục vụ các yêu cầu. Và
cũng rõ ràng là điều này chỉ thỏa mãn nhu cầu hiện tại. Đã biết trước thời gian cần cho việc
tuyển dụng và đào tạo, nhà quản lý cần một công cụ giúp họ dự đoán nhu cầu cho một giai
đoạn sắp tới (cho rằng khoảng 20 tuần).

Một mô hình hồi qui sẽ là công cụ này. Ở đây mô hình như sau:
Y = 0+1X + 
Trong đó Y là yêu cầu và X là tuần. Kết quả chạy hồi qui được mô tả trong Bảng 6.2
Bảng 6.2 Kết quả hồi qui cho chuỗi thời gian
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.993
R Square 0.987
Adjusted R Square 0.986
Standard Error 6.971
Observations 40

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 97
Khai thác dữ liệu trong kinh doanh Chương 6

ANOVA
df SS MS F Significance F
Regression 1 137859.1837 137859.2 2837.198 2.59E-37
Residual 38 1846.416323 48.5899
Total 39 139705.6

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 0.642 2.246 0.286 0.7765 -3.905 5.190
Tuần 5.086 0.095 53.265 0.0000 4.892 5.279

Kết quả này gồm rất nhiều thông tin. Chúng ta sẽ thảo luận về các con số thống kê hồi qui đo
lường độ phù hợp của mô hình với dữ liệu. Thông tin trên bảng ANOVA là một kiểm định
toàn diện về bản thân mô hình. Giá trị mức ý nghĩa F cho ta biết xác suất mà mô hình không
cho thông tin gì về biến phụ thuộc. Ở đây 2.59E-37 thực tế có thể xem như zero (sau dấu ngăn
cách thập phân là 36 số 0, tức coi như bằng 0). Cuối cùng, tại phần cuối của báo cáo cho ta số
liệu cho mô hình hồi qui
Yêu cầu = 0.642 + 5.086 × Tuần
Điều này cho phép chúng ta dự đoán số yêu cầu giúp đỡ kì vọng trong tương lai. Điều này
khuyến khích ngoại suy mô hình trong tương lai, là vi phạm giả định của mô hình hồi qui.
Nhưng ngoại suy là mục đích của mô hình trong dự đoán. Tuy vậy, nhà phân tích cần nhận ra
rằng sai số của mô hình sẽ tăng lên nhiều hơn khi mô hình được sử dụng vượt xa khỏi tập dữ
liệu mà nó được xây dựng dựa trên đó. Để dự đoán, bạn nhân số thứ tự của tuần với 5.086 và
cộng thêm với 0.642. (Vì chúng ta quan tâm đến giá trị nguyên nên điều này đồng nghĩa với
việc cộng 0 cho phần lớn các trường hợp). Giá trị dự đoán từ tuần 41 đến tuần 60 được cho
trong Bảng 6.3.

Hình vẽ của mô hình này trong Hình 6.2.


Bảng 6.3 Dự báo chuỗi thời gian từ mô hình hồi qui
Tuần Yêu cầu Tuần Yêu cầu Tuần Yêu cầu Tuần Yêu cầu
41 209 46 234 51 260 56 285
42 214 47 239 52 265 57 290
43 219 48 244 53 270 58 295
44 224 49 249 54 275 59 300
45 229 50 254 55 280 60 305

Hình 6.2 Đồ thị mô hình chuỗi thời gian và các giá trị dự đoán của nó
300

250

200
Yêu cầu

150

100

50

0
0 5 10 15 20 25 30 35 40 45 50 55 60
Yêu cầu Mô hình Tuần

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 98
Khai thác dữ liệu trong kinh doanh Chương 6

Dữ liệu thật chấm dứt tại tuần 40 và nó dường như có chút dao động. Bản chất tuyến tính của
đường hồi qui được minh họa bởi mô hình. Bạn có thể thấy rằng mô hình phù hợp rất tốt với
dữ liệu quá khứ. Nếu tỷ lệ gia tăng không đổi được giữ nguyên trong 20 tuần kế tiếp, mô hình
sẽ cung cấp một số lượng dự đoán về nhu cầu cần hỗ trợ (số liệu thực tế của yêu cầu trong
từng tuần được cho trong Bảng 6.3) mà sẽ có một ít sai số. Sai sót này sẽ càng tăng nếu dự
đoán được tiến hành càng xa hơn trong tương lai.

Các kiểm định cổ điển trong mô hình hồi qui


Kiểm định toàn diện về sự phân loại trong khai thác dữ liệu là ma trận trùng. Kiểm định này
tập trung vào khả năng của mô hình đối với dữ liệu phân loại. Với hồi qui dữ liệu liên tục,
kiểm định này yêu cầu nhận diện điểm phân chia giữa các lớp. Phần mềm khai thác dữ liệu
không làm việc này, nhưng chúng ta sẽ minh họa cách nó có thể được tiến hành. Có nhiều góc
độ để đánh giá sự chính xác cũng như có nhiều ứng dụng của các mô hình khác nhau, đặc biệt
là hồi qui. Kiểm định cổ điển của mô hình hồi qui căn cứ trên giả định là sai số phân phối
chuẩn xung quanh trung bình của nó, không có kiểu biến thiên rõ ràng. Nền tảng của độ chính
xác của mô hình hồi qui là phần dư, hay khác biệt giữa giá trị được dự đoán và giá trị thực tế.
Phần dư được sử dụng trong đo lường toàn diện độ phù hợp của mô hình hồi qui: R-bình
phương.

SSE
Độ chính xác của bất cứ mô hình tiên đoán hoặc dự báo nào có thể được đánh giá bằng cách
tính toán đại lượng SSE (Tổng bình phương sai số). Trong mô hình hồi qui chúng ta vừa thực
hiện ở ví dụ trên SSE = 1846.416. Có nghĩa là bạn đã thực hiện một mô hình đưa ra một công
thức tiên đoán hoặc dự báo, sau đó áp dụng lại công thức này cho dãy dữ liệu quá khứ để xem
xét các giá trị của biến phụ thuộc Y trên từng quan sát quá khứ mà mô hình đã đem lại cho
chúng ta. (Bạn có thể hình dung điều này bằng cách các yêu cầu trợ giúp thực tế với các giá trị
mô hình đưa ra vẽ trên cùng đồ thị ở Hình 6.2). Mỗi phần dư quan sát được là khác biệt giữa
giá trị thực tế và giá trị dự đoán. Dấu không thành vấn đề, vì bước kế tiếp sẽ bình phương các
sai số này. Mô hình càng chính xác, SSE càng thấp. Và SSE tự thân không có nhiều ý nghĩa,
tuy nhiên nó là một cách rất tốt để so sánh các mô hình khác nhau nếu các mô hình đều có sai
số.

R2
SSE còn được dùng để tính nhiều thông tin khác cho một mô hình cụ thể. Số thống kê R 2 là tỷ
số của phương sai giải thích được bởi mô hình hồi qui chia cho phương sai của toàn bộ tập dữ
liệu. Giá trị bình phương toàn bộ trong ví dụ của chúng ta bằng 139705.6 được tính bằng cách
lấy giá trị bình phương của biến phụ thuộc (137859.2) cộng SSE 1846.416). Để tính ra R2,
bình phương giá trị dự đoán, cộng thêm vào (tạo ra MSR), và chia MSR cho (MSR+SSE).
Công thức này cho chúng ta tỷ lệ thay đổi của biến phụ thuộc được giải thích bởi mô hình
(137859.2/139705.6 = 0.986784). R2 có thể biến động từ tối thiểu là 0 (mô hình hoàn toàn
không cho được thông tin gì về biến phụ thuộc) đến tối đa là 1 (mô hình hoàn hảo)
SST  SSE
R2 
SST
Ở đây SST là tổng bình phương sai lệch của các giá trị trên biến phụ thuộc so với trung bình
của nó, và SSE là tổng sai số bình phương (khác biệt giữa các giá trị thực tế của biến phụ
thuộc và giá trị dự đoán của mô hình)

Hồi qui bội


Bạn có thể đưa vào mô hình nhiều biến độc lập như bạn muốn. Trong phân tích hồi qui truyền
thống, có những lý do chính đáng để giới hạn số lượng biến độc lập. Tuy nhiên tinh thần của
khai thác dữ liệu là khuyến khích khảo sát nhiều biến độc lập. Ở đây chúng ta minh họa bằng

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 99
Khai thác dữ liệu trong kinh doanh Chương 6

các bộ dữ liệu rất nhỏ nên chúng ta có nguy cơ có quá nhiều biến độc lập so với số lượng
quan sát. Tuy nhiên trong ứng dụng khai thác dữ liệu thì giả định là bạn có rất nhiều quan sát
do đó không có giới hạn về mặt kỹ thuật đối với số lượng biến độc lập.

Để minh họa, bạn có thể đang muốn dự đoán thành công của nhân viên kinh doanh trong một
tổ chức. Điều này có thể có ứng dụng trong quá trình tuyển dụng: mô hình có thể dự đoán
doanh số kì vọng. Số liệu quá khứ có thể được dùng để xác định đặc điểm của những ứng viên
được xem xét tuyển dụng với thông tin là kì vọng của họ về kết quả doanh số của họ trong
tháng đầu tiên sau khi hoàn thành chương trình huấn luyện của công ty. Bảng 6.4 mô tả số
liệu này. Mục tiêu có tính thương mại ở đây là dự đoán doanh số như một hàm của một tập
các biến độc lập có sẵn.

Biến phụ thuộc, doanh số tháng đầu tiên được cho trước nhất. Với 20 người đã được tuyển, có
một người không làm được gì (doanh số là zero). Người làm tốt nhất đạt doanh số là
158.964$. Trong trường hợp này, doanh số, năm đi học, GPA (điểm trung bình), tuổi là các
biến liên tục. Hai biến cuối cùng là biến nhị phân (chỉ có thể nhận một trong hai giá trị 0 hoặc
1 trên một quan sát), biến thứ nhất là giới tính (0 là nam và 1 là nữ), biến thứ hai cho biết
người đó có bằng cao đẳng (nghề) hay không. Biến nhị phân ở đây là định danh, nó mô tả một
tình trạng và không hàm ý so sánh trật tự lớn bé. (Hệ số beta của mô hình sẽ cho ta thông tin
để suy luận về độ lớn bé)

Mô hình hồi qui bội được hình thành theo cách cũng tương tự mô hình hồi qui 1 biến độc lập,
tuy nhiên trong trường hợp này khối các biến độc lập liền nhau thành 5 cột chứ không phải
một cột, kết quả hồi qui bội được trình bày tại bảng 6.5
Bảng 6.4 Tập dữ liệu về tuyển dụng nhân viên dùng phân tích
Doanh số Số năm đi học GPA ở trường CĐ Tuổi M/F Tốt nghiệp cao đẳng
123293 18 3.01 33 0 1
125930 16 2.78 25 1 1
0 18 3.15 26 1 1
103405 18 3.86 24 0 1
84671 16 2.58 25 0 1
33284 16 2.96 23 1 1
143290 17 3.56 35 1 1
81973 16 2.64 23 1 1
56062 18 3.43 32 0 1
140698 15 2.75 34 1 0
73211 13 2.95 28 1 0
108726 13 2.50 23 1 0
65850 16 2.86 24 1 1
112804 15 2.38 23 0 0
140956 16 3.47 27 0 1
82621 16 3.10 26 1 1
101628 13 2.98 21 1 0
158964 16 2.71 23 1 1
103562 13 2.95 20 0 0
53152 18 3.36 25 1 1

Bảng 6.5 Kết quả hồi qui cho dữ liệu tuyển dụng nhân viên
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.502
R Square 0.252
Adjusted R Square -0.015
Standard Error 40646.563
Observations 20

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 100
Khai thác dữ liệu trong kinh doanh Chương 6

ANOVA
df SS MS F Significance F
Regression 5 7797651132 1.56E+09 0.943944 0.483
Residual 14 23130002814 1.65E+09
Total 19 30927653946

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept 269025.2 150499.5 1.788 0.096 -53764 591814
Số năm đi học -17148.4 11997.8 -1.429 0.175 -42881 8584
GPA ở trường CĐ -7171.9 29553.1 -0.243 0.812 -70557 56213
Tuổi 4331.4 2585.4 1.675 0.116 -1214 9877
M/F -23580.6 20335.7 -1.160 0.266 -67196 20035
Tốt nghiệp CĐ 31001.1 39847.4 0.778 0.450 -54463 116465

Ở đây mô hình có thông tin sau:


Doanh số dự đoán trong tháng đầu tiên = 269025
- 17148.4 × Số năm đi học
- 7171.9 × GPA
+ 4331.4 × Tuổi
- 23580.6 × nam/nữ
+ 31001.1 × Tốt nghiệp CĐ

Ví dụ nếu công ty đang phỏng vấn 4 ứng cử viên mới, với các đặc điểm đã biết, các thành quả
ban đầu về doanh số dự đoán được từ mô hình thể hiện trong Bảng 6.6.
Bảng 6.6 Dự đoán doanh số của các ứng viên
Số năm đi học GPA Tuổi M/F Bằng CĐ Doanh số dự đoán
14 2.35 20 0 0 98721
21 3.35 32 0 1 54488
18 3.02 34 0 1 116963
16 2.86 22 1 1 76850

Trung bình của tập dữ liệu ban đầu là khoảng hơn 94.000$. Với 4 ứng viên này người thứ 3 tỏ
ra hứa hẹn hơn cả, người đầu tiên cũng có doanh số dự đoán cao hơn trung bình. Người thứ
hai và thứ tư không khả quan.

Độ phù hợp của mô hình đối với dữ liệu không tốt như mô hình hồi qui đơn đã xem xét ở ví
dụ trước. Số thống kê R2 chỉ có 0.25 cho biết mô hình giải thích được 1/4 biến thiên trong
doanh số của tháng đầu tiên, thấp hơn nhiều giá trị 0.98 của mô hình hồi qui với chỉ một biến
độc lập vừa khảo sát ở ví dụ trước.

R2 điều chỉnh
Chú ý rằng trong mô hình trước, bạn được xác định một số lượng hạn chế của biến độc lập.
Thực tế là cứ đưa thêm biến độc lập vào mô hình thì R2 sẽ luôn bằng hoặc tăng cao thêm.
Điều này luôn đúng dù cho khả năng một hoặc nhiều biến độc lập có mối quan hệ không
mạnh với biến phụ thuộc. Để có thể đánh giá về tầm quan trọng của biến độc lập được đưa
thêm vào mô hình, R2 điều chỉnh được tính toán từ công thức sau để kể đến tác động của biến
đưa thêm vào mô hình.
SSE(n  1)
R 2 đc  1 
TSS (n  k )
Trong đó:
 SSE là tổng bình phương sai số

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 101
Khai thác dữ liệu trong kinh doanh Chương 6

 MSR là tổng bình phương các giá trị dự đoán


 TSS = SSE+MSR
 n là số quan sát
 k là số biến độc lập

R2 điều chỉnh được dùng để làm tiêu chí chọn lựa mô hình hồi qui tốt hơn. Chúng ta có thể
xem kết quả chạy hồi qui và thấy rằng xác suất mà hệ số beta trước biến GPA ở trường CĐ
khác 0 một cách có ý nghĩa là 0.81 và Tốt nghiệp CĐ là 0.45, tức là khá cao. Chúng ta có thể
dự đoán hầu như vẫn rất tốt mà không cần có hai biến này, chạy lại mô hình hồi qui chúng ta
có Bảng 6.7.

Ở đây R2 điều chỉnh cao hơn, đạt 0.07, R2 lại giảm xuống còn 0.22 như là tất yếu khi biến độc
lập bị loại khỏi mô hình. Nếu dữ liệu về GPA và Tốt nghiệp CĐ có sẵn nó có thể giúp dự
đoán tốt hơn đôi chút, nhưng xóa bỏ dữ liệu này thì không quan trọng lắm.
Bảng 6.7
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.466
R Square 0.218
Adjusted R Square 0.071
Standard Error 38890.99
Observations 20

ANOVA
df SS MS F Significance F
Regression 3 6727506650 2.24E+09 1.482637 0.256994
Residual 16 24200147296 1.51E+09
Total 19 30927653946

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 173284 88170 1.965 0.0670 -13628 360196
Số năm đi học -9991 5691 -1.756 0.0983 -22055 2072
Tuổi 3537 2283 1.549 0.1409 -1303 8376
M/F -18731 18569 -1.009 0.3281 -58094 20633

HỒI QUI LOGISTIC

Một số dữ liệu được quan tâm trong nghiên cứu hồi qui lại thuộc dạng định danh hay thứ bậc.
Chẳng hạn trong ví dụ về tuyển dụng của chúng ta giới tính và bằng cao đẳng là dữ liệu định
danh. Trong dữ liệu về người xin vay, kết cục là dữ liệu định danh trong khi đánh giá tín dụng
là dữ liệu thứ bậc. Vì phân tích hồi qui yêu cầu dữ liệu dạng số, nên chúng ta sẽ phải mã hóa
dữ liệu. Khi dữ liệu là dạng nhị phân chúng ta mã chúng bằng giá trị 0 và 1 (như đã làm trong
mô hình hồi qui về xin vay nợ). Ví dụ một người là nam có thể được đặt là 0 trong khi nữ đặt
là 1. Những người xin việc có bằng Cao đẳng có thể mã là 1 còn không có mã là 0.

Mục đích của phân tích hồi qui là phân chia các trường hợp vào các nhóm có khả năng nhất.
Hồi qui logistic cho ta một tập các tham số  của hệ số chặn (hoặc hệ số chặn trong trường
hợp của dữ liệu thứ bậc với hơn 2 phân loại) và biến độc lập, mà có thể áp dụng hàm logistic

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 102
Khai thác dữ liệu trong kinh doanh Chương 6

để ước lượng xác suất thuộc về một nhóm kết cục cụ thể. Công thức cho xác suất để chấp
nhận một trường hợp i nào đó thuộc về một nhóm j nào đó là :
1
Pj 
1 e
(  0   i xi )
Trong đó hệ số  được hình thành từ phương trình hồi qui logistic.

Mô hình hồi qui cung cấp một công thức liên tục. Một điểm cắt cần được xác định để phân
chia các giá trị hình thành từ phương trình này, với các giá trị được cho trước của biến độc
lập, sẽ chia dữ liệu thành các nhóm kết cục theo tỷ lệ tương ứng với tổng thể các quan sát.

Chương 4 có đề cập đến một tập dữ liệu về đòi bảo hiểm, một số trường hợp trong đó là có
gian lận. Các biến độc lập bao gồm tuổi của người đòi bảo hiểm, giới tính, số tiền yêu cầu chi
trả, số vé phạt vi phạm luật giao thông trong hồ sơ, số lần đòi bảo hiểm tai nạn trước đây, và
có luật sư tham gia hay không. Ở đây chúng ta đơn giản hóa dữ liệu về luật sự bằng cách tập
trung vào luật sư Smith, tạo thành một biến 0-1. Bảng 6.8 cung cấp 10 quan sát phản ánh bộ
dữ liệu đã trình bày ở Bảng 4.10.
Bảng 6.8 Dữ liệu về gian lận bảo hiểm dùng để phân tích
Tuổi Giới tính Số tiền đòi Vé phạt Số lần đòi BH Luật sư Kết quả
chi trả trước đây
52 0 2000 0 1 0 Ok
38 0 1800 0 0 0 Ok
21 1 5600 1 2 1 Gian lận
36 1 3800 0 1 0 Ok
19 0 600 2 2 0 Ok
41 0 4200 1 2 1 Gian lận
38 0 2700 0 0 0 Ok
33 1 2500 0 1 0 Gian lận
18 1 1300 0 0 0 Ok
26 0 2600 2 0 0 Ok

Một mô hình hồi qui logistic được xây dựng cho dữ liệu này, dùng phần mềm SAS, kết quả
được trình bày trong Bảng 6.9. Báo cáo kết quả này cho ta số liệu về các hệ số hồi qui cho hệ
số chặn và cho các biến (cột Estimate) với sai số chuẩn của mỗi hệ số ước lượng. Vì hàm
logistic căn cứ trên giá trị rời rạc của một số biến nên kiểm định Chi bình phương thường
được sử dụng cho việc đánh giá từng hệ số hồi qui của mô hình (cho trong cột Chi-square). Sự
đánh giá này khá dễ thực hiện nếu dùng số liệu của cột cuối cùng cho biết xác suất một đo
lường ngẫu nhiên lớn hơn giá trị Chi bình phương. Nếu xác suất này cao, ngụ ý rằng hệ số
không có ý nghĩa lắm. Nếu xác suất này thấp (hoặc gần bằng 0) ngụ ý rằng hệ số có ý nghĩa.
Bảng 6.9 Mô hình hồi qui logistic cho dữ liệu về gian lận bảo hiểm
Parameter Estimate Std. Error Chi-square Xác suất
Tham số Ước lượng Sai số chuẩn Chi-bình phương Pr>ChiSq
Intercept (hệ số chặn) 81.624 309.3 0.0697 0.7918
Tuổi -2.778 10.4 0.0713 0.7894
Giới tính -75.893 246.7 0.0946 0.7584
Số tiền đòi chi trả 0.017 0.055 0.0959 0.7569
Vé phạt -36.648 164.5 0.0496 0.8237
Số lần đòi BH trước đây 6.914 84.8 0.0067 0.9350
Smith -29.361 103.3 0.0809 0.7761

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 103
Khai thác dữ liệu trong kinh doanh Chương 6

Cột Estimate cho ta các hệ số ước lượng . Mô hình có thể áp dụng lại cho bộ dữ liệu kiểm
tra được cho trong Bảng 4.11 bằng cách sử dụng công thức xác suất đã trình bày ở trên. Các
tính toán được thể hiện trong Bảng 6.10. Ma trận trùng của bộ dữ liệu này ở Bảng 6.11.
Trong trường hợp này mô hình nhận diện được một trường hợp gian lận thực tế với cái giá
phải trả là tiên đoán quá mức việc gian lận.
Bảng 6.10 Mô hình hồi qui logistic cho dữ liệu về gian lận bảo hiểm, các quan sát để kiểm tra mô
hình
Tuổi Giới Số tiền đòi Vé phạt Số lân đòi BH Luật sư Mô hình P-value Dự báo Thực tế
tính chi trả trước đây
23 0 2800 1 0 0 28.958 1.0 Ok Ok
31 1 1400 0 0 0 -56.453 0.0 Gian lận Ok
28 0 4200 2 3 1 -6.261 0.002 Gian lận Gian lận
19 0 2800 0 1 0 83.632 1.0 Ok Ok
41 0 1600 0 0 0 -4.922 0.007 Gian lận Ok

Bảng 6.11 Ma trận trùng của bộ dữ liệu gian lận bảo hiểm dùng hồi qui logistic
Thực tê Dự đoán Tổng cộng
Gian lận Ok
Gian lận 1 0 1
Ok 2 2 4
Tổng cộng 3 2 0.60

PHÂN TÍCH BIỆT SỐ TUYẾN TÍNH

Phân tích biệt số nhóm các đối tượng được xác định bởi một tập các biến vào một tập định
trước các lớp kết cục. Một ví dụ về dạng phân tích này là sự phân loại các nhân viên theo
đánh giá kết quả công việc trong một tổ chức. Ví dụ vay nợ ngân hàng cũng có thể chia các
quan sát quá khứ thành hai nhóm riêng biệt là trả hoặc không trả được nợ vay. Vì vậy, phân
tích kĩ thuật là xác định sự kết hợp giữa các biến giúp dự đoán tốt nhất tư cách thành viên (của
các quan sát) thuộc về một trong các nhóm kết cục nào.

Có một số phương pháp có thể dùng cho phân tích biệt số, bao gồm cả hồi qui. Với những
trường hợp hai nhóm kết cục, kĩ thuật hồi qui này giúp xác định một điểm cắt giữa hai nhóm.
Và nếu một nhóm dữ liệu mới đưa vào cho ra một giá trị tính toán được nhỏ hơn điểm cắt
này, nó được dự đoán thuộc nhóm này, ngược lại nếu giá trị tính toán lớn hơn điểm cắt thì
được dự đoán thuộc nhóm kia. Tuy nhiên các kĩ thuật khác cũng có thể được sử dụng cho
phân tích biệt số1. Hàm biệt số có thể sử dụng cho dữ liệu nhị phân để phân chia các quan sát
vào hai nhóm với một giới hạn phân cách được đưa ra để chia các quan sát. Chúng ta sẽ minh
họa các vấn đề này với dữ liệu về đòi bảo hiểm.
Bảng 6.12 Tập dữ liệu đã chuẩn hóa để phân tích – Đòi bảo hiểm
Trường hợp Tuổi Giới tính Số tiền đòi Vé phạt Số lần đòi BH trước đây Luật sư Kết cục
bảo hiểm
1 1 1 0.6 1 0.5 0 0
2 0.9 1 0.64 1 1 1 0
4 0.8 0 0.24 1 0.5 1 0
5 0 1 0.88 0 0 0 0
7 0.9 1 0.46 1 1 1 0
9 0 0 0.74 1 1 1 0
10 0.3 1 0.48 0 1 1 0
Trung bình 0 0.557 0.714 0.577 0.714 0.714 0.714 0
3 0.05 0 0 1 0 0 1
6 1 1 0.16 1 0 0 1
8 0.65 0 0.5 1 0.5 1 1
Trung bình 1 0.567 0.333 0.220 1 0.167 0.333 1

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 104
Khai thác dữ liệu trong kinh doanh Chương 6

Phân tích biệt số cho dữ liệu về đòi bảo hiểm


Sử dụng phương pháp hàm phân biệt sẽ nhận diện được trung bình của mỗi đo lường theo
nhóm trên mỗi biến. Vec tơ của trung bình này xem như một centroid. Sau đó chúng ta thực
hiện tính toán và áp dụng cho các trường hợp mới theo các centroid này với khoảng cách tối
thiểu. Một lần nữa, chúng ta sử dụng tổng khoảng cách bình phương để đo lường. Để loại trừ
khác biệt trong thang đo các quan sát trên mỗi biến sẽ được chuẩn hóa trên thước đo từ 0-1
theo công thức đã dùng tại Bảng 5.1. Bảng 6.12 cho ta các giá trị này theo các nhóm kết cục
đã được xác định (0 là không gian lận và 1 là có).

Áp dụng mô hình bao gồm tính toán tổng khoảng cách bình phương từ tập có trung bình là 0
và tập có trung bình là 1, và sau đó chọn tổng nhỏ nhất. Ví dụ với khoảng cách bình phương
bé nhất trường hợp 1 từ Trung bình 0 là 0.916 trong khi khoảng cách từ Trung bình 1 là
0.999.
(1-0.557)2 + (1-0.714)2 + (0.6-0.577)2 + (1-0.714)2 + (0.5-0.714)2 + (0-0.714)2 = 0.916
(1-0.567)2 + (1-0.333)2 + (0.6-0.220)2 + (1-1)2 + (0.5-0.167)2 + (0-0.333)2 = 0.999

Vì thế mô hình chỉ ra rằng trường hợp 1 thuộc về tập 0 (không gian lận). Bảng 6.13 trình bày
kết quả trên các quan sát kiểm định mô hình.
Bảng 6.13 Phân tích biệt số căn cứ trên khoảng cách bình phương bé nhất đến các centroid
Trường Tuổi Giới Số tiển đòi Vé Số lần đòi BH Luật Kết Dist (0) Dist(1) Mô
hợp tính bảo hiểm phạt trước đây sư cục hình
1 0.15 1 0.44 1 1 1 0 0.511 1.805 0
2 0.55 0 0.72 1 1 1 0 0.776 1.500 0
3 0.40 1 0.16 0 0 0 1 1.811 1.615 1
4 0 1 0.44 1 0.5 1 0 0.620 1.370 0
5 1 1 0.68 1 1 0 0 0.962 1.649 0

Trong trường hợp này mô hình đúng cho cả 5 trường hợp, đưa đến ma trận trùng trong Bảng 6.14.
Bảng 6.14 Ma trận trùng hợp của tập dữ liệu đòi bảo hiểm dùng để kiểm tra mô hình– đo lường
khoảng cách bình phương
Thực tế Mô hình Tổng cộng
Gian lận Ok
Gian lận 1 0 1
Ok 0 4 4
Tổng cộng 1 4 1.0

Ứng dụng cho các trường hợp mới được cho đầu Bảng 4.12 được trình bày kết quả trong
Bảng 6.15.
Bảng 6.15 Mô hình khoảng cách bình phương đến centroid áp dụng cho các trường hợp đòi bảo
hiểm mới
Trường Tuổi Giới tính Số tiền đòi Vé phạt Số lần đòi Luật sư Dist (0) Dist (1) Mô hình
hợp bảo hiểm BH trước
1 0.15 1 0.64 0.6 0.5 0 1.268 0.815 1
2 0.60 0 0.58 1 1 0 1.609 1.129 1
3 0 0 0.68 1 1 0 1.592 1.189 1
4 0 0 0.34 0 1 0 1.886 0.508 1
5 1 1 0.20 1 1 1 1.313 1.620 0
6 1 1 0.48 0.6 0.5 0 1.318 0.743 1
7 0.90 0 0.38 1 1 0 1.703 1.071 1
8 0.05 1 0.50 0.6 1 0 1.345 0.499 1
9 0 0 0.10 0.6 0 1 1.790 2.326 0
10 0.20 1 0.48 0.6 0.5 0 1.318 0.743 1

Phương trình biệt số tuyến tính cũng có thể được hình thành thông qua hàm hồi qui trên tập
dữ liệu phân tích. Hồi qui chạy trên dữ liệu trong Bảng 6.12 được trình bày ở Bảng 6.16

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 105
Khai thác dữ liệu trong kinh doanh Chương 6

Bảng 6.16 Hàm biệt số bẳng hồi qui cho dữ liệu về gian lận bảo hiểm
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.804
R Square 0.647
Adjusted R Square -0.059
Standard Error 0.497
Observations 10

ANOVA
df SS MS F Significance F
Regression 6 1.358628952 0.22643816 0.916 0.578
Residual 3 0.741371048 0.24712368
Total 9 2.1

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 0.430 0.914 0.471 0.6701 -2.480 3.341
Tuổi -0.421 0.899 -0.468 0.6716 -3.283 2.441
Giới tính 0.333 0.891 0.374 0.7334 -2.504 3.170
Số tiền đòi BH -0.648 0.784 -0.827 0.4690 -3.144 1.848
Vé phạt 0.584 0.908 0.643 0.5660 -2.306 3.473
Số lần đòi BH trước đây -1.091 1.112 -0.982 0.3986 -4.629 2.446
Luật sư 0.573 1.000 0.573 0.6070 -2.610 3.755

Hàm phân tích biệt số là


0.4303 -0.421Tuổi +0.333Giới tính -0.648Số tiền đòi BH +0.5838Vé phạt -1.091Số lần đòi BH +0.573Luật sư

R2 = 0.64 khá khả quan, nhưng R2 hiệu chỉnh thì lại âm chỉ ra rằng có quá nhiều biến trong
mô hình (so với số quan sát). Xem xét giá trị p-value căn cứ trên số thống kê t cho thấy không
có biến nào có ý nghĩa cũng là một chỉ báo khác cho thấy đã có quá nhiều biến độc lập trong
mô hình (cũng chỉ ra là 90% các khoảng tin cậy của từng hệ số hồi qui beta có đi qua giá trị
0). Tuy nhiên mô hình này cũng dựa trên quá ít quan sát và mục đích của chúng ta là minh
họa phương pháp. Để sử dụng mô hình chúng ta dùng một điểm phân cách, giá trị hàm phân
tích biệt số cho mỗi trong 10 quan sát của tập dữ liệu phân tích được thể hiện tại Bảng 6.17

Giá trị hàm trung bình cho 7 quan sát với kết cục 0 là 0.106 trong khi trung bình cho 3 quan
sát với kết cục 1 là 0.753. Điểm cắt có thể là trung bình của hai số này tức là 0.429. Nếu hàm
biệt số áp dụng cho các quan sát mới và giá trị hàm cho ra nhỏ hơn 0.429 thì tiên đoán kết cục
là 0. Ngược lại, nếu giá trị hàm là lớn hơn 0.429 thì sẽ tiên đoán kết cục là 1. Áp dụng hàm
phân tích biệt số này cho tập dữ liệu đã chuẩn hóa dùng để kiểm tra trong Bảng 5.6 ta được
các kết quả trong Bảng 6.18.

Bảng 6.19 thể hiện ma trận trùng hợp ngẫu nhiên của mô hình. Mô hình đúng trên 60% các
trường hợp.
Bảng 6.17 Điểm của hàm biệt số cho dữ liệu gian lận Bảo hiểm dùng phân tích
Trường hợp 1 2 3 4 5 6 7 8 9 10
Hàm -0.008 0.035 0.993 0.549 0.193 0.823 0.151 0.443 0.015 -0.193
Kết cục 0 0 1 0 0 1 0 1 0 0

Bảng 6.18 Kết quả của hàm biệt số cho dữ liệu gian lận Bảo hiểm dùng kiểm tra
Trường hợp 1 2 3 4 5
Hàm 0.480 -0.203 0.491 1.089 -0.606
Dự đoán 1 0 1 1 0
Kết cục 0 0 1 0 0

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 106
Khai thác dữ liệu trong kinh doanh Chương 6

Bảng 6.19 Ma trận trùng cho các trường hợp gian lận Bảo hiểm trên hàm biệt số
Thực tê Dự đoán Tổng cộng
Gian lận Ok
Gian lận 1 0 1
Ok 2 2 4
Tổng cộng 3 2 0.6

Dữ liệu xin việc làm


Một đặc điểm hấp dẫn của phân tích biệt số là nó có thể áp dụng cho bất kì số lượng kết cục
đã biết là bao nhiêu (không phải chỉ 2 như Logistic). Bảng 6.20 cho ta một tập dữ liệu nhỏ
điểm số đã chuẩn hóa của các trường hợp được tuyển dụng trong Bảng 6.12 (dựa trên mã hóa
từ Bảng 4.7). Sự khác biệt duy nhất là đo lường khoảng cách đến trung bình của các giá trị
trên các biến cho mỗi nhóm thay vì đo lường khoảng cách cho mỗi quan sát.

Phân chia đơn giản có thể là Trung bình hoặc cao, ngược lại là Tối thiểu hoặc quá thấp, trong
trường hợp này như thể hiện trong Bảng 6.21. Cụm đầu tiên sẽ bao gồm 7 hồ sơ đầu tiên, cụm
thứ 2 bao gồm 3 hồ sơ còn lại (hồ sơ gốc là 4,5 và 9)

Chúng ta có thể áp dụng mô hình này để kiểm tra tập những người xin việc trong chương 4.
Hồ sơ thứ 11 tuổi là 36 từ California với bằng thạc sĩ ngành hệ thống thông tin, hồ sơ này
được mã hóa tuổi thành 0.533. Khoảng cách bình phương đến trung bình của nhóm lương Cao
là (0.533-0.217)2= 0.1. Khoảng cách bình phương bé nhất từ hồ sơ 11 đến mỗi biến cho
nhóm Cao là thể hiện trong Bảng 6.22.

Kết quả cho những thành viên trong tập dữ liệu kiểm tra nằm trong Bảng 6.23
Bảng 6.20 Dữ liệu về người xin việc đã mã hóa
Hồ sơ Tuổi Bang Bằng Cấp Chuyên môn Kinh nghiệm Thu nhập
1 0.233 1 0 0.9 0.4 Cao
6 0.200 1 1 0.7 0.0 Cao
2 0.433 0 1 0.7 1.0 TB
3 0.333 1 1 0.9 0.0 TB
7 0.167 1 0 0.9 0.6 TB
8 0.267 0 1 0.9 0.4 TB
10 0.133 1 0 1.0 0.2 TB
5 0.267 1 0 1.0 0.4 Tối thiểu
9 0.167 1 0 1.0 0.4 Tối thiểu
4 0.067 1 0 1.0 0.0 Quá thấp

Bảng 6.21 Trung bình centroid cho dữ liệu người xin việc
Tuổi Bang Bằng Cấp Chuyên môn Kinh nghiệm
Cao 0.217 1 0.5 0.8 0.20
TB 0.267 0.6 0.6 0.88 0.44
Tối thiểu 0.217 1 0 1 0.40
Quá thấp 0.067 1 0 1 0

Bảng 6.22 Tính toán khoảng cách cho quan sát kiểm tra thứ 11 đến các trung bình của tập phân
tích cho nhóm lương Cao
Biến Hồ sơ 11 Hồ sơ11 mã hóa Cao đã mã hóa Khoảng cách Bình phương
Tuổi 36 0.533 0.217 0.100
Bang CA 1 1 0
Bằng cấp MS 1 0.5 0.25
Chuyên môn Hệ thống TT 1.0 0.8 0.04
Kinh nghiệm 0 0 0.2 0.04
Tổng 0.43

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 107
Khai thác dữ liệu trong kinh doanh Chương 6

Bảng 6.23 Tính khoảng cách centroid cho quan sát đầu tiên của tập dữ liệu xin việc dùng để
kiểm tra
Biến Quan sát 11 Qúa thấp Tối thiểu Trung bình Cao
Tuổi 0.533 0.100 0.071 0.100 0.217
Bang 1.000 0 0.160 0 0
Bằng cấp 1.000 0.250 0.160 1 1
Chuyên môn 1.000 0.040 0.014 0 0
Kinh nghiệm 0.000 0.040 0.194 0.160 0
Tổng cộng 0.430 0.599 1.260 1.217

Tổng bình phương khoảng cách nhỏ nhất trong trường hợp này là tới nhóm Lương cao. Vì thế
mô hình dự đoán rằng trường hợp này sẽ có mức lương cao (kết cục thực tế của quan sát 11 là
tối thiểu. Ma trận trùng hợp ngẫu nhiên cho 5 trường hợp dữ liệu kiểm tra được trình bày
trong Bảng 6.24.
Bảng 6.24 Ma trận trùng trung tâm cụm trong mô hình phân tích biệt số dữ liệu xin việc
Thực tế Dự đoán Tổng
Qúa thấp Tối thiểu Trung bình Cao
Qúa thấp 1 1
Tối thiểu 1 1 2
Trung bình 1 1
Cao 1 1
Tổng 0 2 2 1 5

Trong trường hợp này mô hình chỉ phân biệt đúng 1 trong 5 trường hợp. Vì vậy mô hình
không được kì vọng sẽ phân tích tốt, mặc dù chúng ta sẽ kiểm tra nó triệt để hơn ở gần cuối
của chương khi chúng ta xử lý bộ dữ liệu lớn hơn.

Chúng ta cũng có thể áp dụng mô hình cho các ứng viên mới. Đo lường khoảng cách bình
phương cho 2 trường hợp mới (hai hàng đầu tiên của Bảng 4.9) lần lượt được cho trong Bảng
6.25 và 6.26. Ứng viên đầu tiên gần nhất với cụm Lương cao, kế tiếp là cụm trung bình. Vì
thế nó dường như có triển vọng tốt (nhớ rằng độ phù hợp của mô hình tương đối thấp). Ứng
viên thứ hai gần nhất với cụm trung bình kế tiếp là nhóm tối thiểu.
Bảng 6.25 Tính toán khoảng cách cho ứng viên 1
Tuổi Bang Bằng Chuyên Kinh Tính toán Khoảng cách
cấp môn nghiệm
Ứng viên 1 0.267 1.0 1.0 0.9 0
Cao 0.217 1.0 0.5 0.80 0.2 0.0025+0+0.25+0.01+0.04 =0.3025
Trung bình 0.267 0.6 0.6 0.88 0.44 0+0.16+0.16+0.0004+0.194 =0.5144
Tối thiểu 0.217 1.0 0.0 1.00 0.40 0.0025+0+1+0.01+0.16 =1.1725
Quá thấp 0.067 1.0 0.0 1.00 0.00 0.04+0+1+0.01+0 =1.0500

Bảng 6.26 Tính toán khoảng cách cho ứng viên 2


Tuổi Bang Bằng Chuyên Kinh Tính toán Khoảng
cấp môn nghiệm cách
ứng viên 2 0.2 0 0 0.90 0.6
Cao 0.217 1.0 0.5 0.80 0.2 0.0003+1+0.25+0.01+0.16 =1.4203
Trung bình 0.600 0.6 0.6 0.88 0.44 0.0045+0.36+0.36+0.0004+0.0256 =0.7505
Tối thiểu 0.217 1.0 0.0 1.00 0.40 0.0003+1+0+0.01+0.04 =1.0503
Quá thấp 0.067 1.0 0.0 1.00 0.00 0.0177+1+0+0.01+0.36 =1.3877

ỨNG DỤNG THỰC TẾ CỦA HỒI QUI TRONG KHAI THÁC DỮ LIỆU.

Số ứng dụng của các phương pháp này trong kinh doanh là rất phong phú. Chú ý rằng vì hầu
hết các phần mềm khai thác dữ liệu bao gồm cả hồi qui (tuyến tính và logistic) và mạng thần
kinh (thường với các lựa chọn của các biến thể khác nhau) như những công cụ cơ bản cho lựa

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 108
Khai thác dữ liệu trong kinh doanh Chương 6

chọn, thông thường tất cả các dạng mô hình có sẵn có thể áp dụng cho một tập dữ liệu cụ thể
và dạng mô hình có vẻ phù hợp nhất sẽ được chọn áp dụng. Chúng ta minh họa chỉ một số
trong các ứng dụng.

Hồi qui từng bước trong mô hình dự đoán phá sản


Một trong những ứng dụng kinh doanh quan trọng của khai thác dữ liệu là dự đoán sự phá sản
được tiến hành bởi các chủ nợ. Có một tập dữ liệu lớn được thu thập về sự hoạt động của các
thẻ tín dụng, với nhiều biến sẵn có một cách tiêu biểu. Hồi qui từng bước là một thủ tục mà
dùng máy tính để lựa chọn các biến độc lập đưa vào mô hình hồi qui. Cách này khá hấp dẫn
khi mà bạn có số lượng biến độc lập rất lớn. Trong khi lý tưởng hơn cả là phải lựa chọn các
biến độc lập căn bản dựa trên hiểu biết vấn đề thật sự thấu đáo, thì vì giới hạn các khả năng
con người, nên có máy vi tính giúp xây dựng mô hình một cách tự động vẫn là hữu dụng.

Hồi qui từng bước bắt đầu với sự lựa chọn trước các biến căn cứ trên chạy hồi qui đơn và
chọn biến dựa trên giá trị thống kê F riêng phần2. Mức ý nghĩa của các biến được đánh giá, và
nếu mức ý nghĩa được chấp nhận, biến sẽ được đưa vào mô hình, và giá trị F riêng phần sẽ
được tính toán lại cho lần tương tác kế tiếp theo. F riêng phần sẽ thay đổi khi biến độc lập
được đưa vào hoặc đưa ra khỏi mô hình, sau khi đưa vào một biến mới hệ số của các biến đã
được đưa vào trước sẽ được kiểm tra lại và nếu mức ý nghĩa của biến không còn tỏ ra khả
quan trong mô hình mới xây dựng này biến đó sẽ bị loại trừ. Một khi không có các biến bên
ngoài kiểm định mô hình tỏ ra có ý nghĩa, phương pháp này dừng lại.

Foster và Stine3 đã nghiên cứu việc sử dụng hồi qui từng bước trên một tập dữ liệu lớn tới
244.000 tài khoản thẻ tín dụng qua một thời kì dài 12 tháng. Tập dữ liệu bao gồm 255 biến dự
đoán, bao gồm các biến trễ (lagged variables). Kết cục là dạng nhị phân gồm 1 cho phá sản và
0 cho khác. Tương tác giữa các biến là rất quan trọng trong hồi qui từng bước, và có 66.430
tương tác được xử lý như biến độc lập, tạo nên một số lượng rất lớn các biến dự đoán tiềm
năng. Tập dữ liệu có một tỷ lệ nhỏ khoảng 1% là không trả được nợ. Hơn nữa chi phí của việc
chấp nhận một khoản cho vay mà khả năng trả rất kém thì gấp 100 lần chi phí từ chối một
khoản cho vay mà kết cục lại hoàn toàn tốt.

Foster và Stine tiến hành một chuỗi các thử nghiệm để xử lý tập dữ liệu rất lớn về thẻ tín
dụng của họ. Tập dữ liệu là các biến mà được chia ngẫu nhiên thành 5 nhóm, sử dụng 20% số
quan sát để phân tích mô hình và 80% để kiểm tra mô hình. Họ so sánh mô hình hồi qui từng
bước với cây quyết định. Họ phát hiện ra hồi qui thực hiện tốt hơn trên cơ sở tối thiểu hóa chi
phí mặc dù chi phí không được xem xét khi xây dựng mô hình (trong khi với mô hình cây
quyết định thì có). Họ cũng phát hiện ra cỡ mẫu nhỏ dẫn tới mô hình kém chính xác hơn, cụ
thể là vì số lượng phá sản rất nhỏ.

ỨNG DỤNG CỦA CÁC MÔ HÌNH CHO TẬP DỮ LIỆU LỚN

Với hồi qui bình phương bé nhất cả SAS và Excel đều có thể sử dụng được. Cả hai đều giúp
nhận diện rất rõ các mô hình. Giới hạn duy nhất với Excel là Excel chỉ sử lý được hồi qui
dưới 16 biến độc lập. SAS căn bản có khả năng chạy hồi qui bình phương bé nhất (Excel cũng
vậy) và hồi qui Logistic.

Dữ liệu gian lận bảo hiểm


4.000 quan sát đầu tiên được sử dụng cho phân tích mô hình. Điểm chuẩn hóa (dao động giữa
0 và 1) được sử dụng dù cho là dữ liệu liên tục hay dữ liệu dạng phân loại. Việc chuyển đổi

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 109
Khai thác dữ liệu trong kinh doanh Chương 6

dữ liệu để giải quyết vấn đề khác biệt thang đo. Có lý do để làm việc này, nếu các biến trên
các thang đo khác nhau hoàn toàn. Kết quả hồi qui có thể giống y hệt giữa dữ liệu chuẩn hóa
và dữ liệu gốc (dữ liệu chuẩn hóa cũng dạng liên tục giống như dữ liệu gốc mà nó được
chuyển đổi từ đó). Để kiểm tra bạn có thể chạy lại hồi qui trên dữ liệu gốc và xem nếu bạn có
cùng giá trị R2 và thống kê t. Giá trị hệ số hồi qui sẽ khác và dữ liệu dạng phân loại được
chuyển thành dạng mà các thông tin chi tiết không còn nữa. Bạn sẽ có kết quả hồi qui khác
giữa dữ liệu gốc dạng liên tục và dữ liệu phân loại.

Mô hình phân tích biệt số hồi qui


Với mô hình hồi qui trên dữ liệu chuẩn hóa, kết quả được thể hiện trong Bảng 6.27.

Tất nhiên, mô hình tương tự cũng có thể được chạy từ SAS. Chỉ sự có mặt của luật sư (mức ý
nghĩa cao) và số vé phạt trong hồ sơ (mức ý nghĩa sát nút) là có ý nghĩa thống kê. Hệ số beta
cho ta hàm phân biệt. Một giá trị phân cách cho hàm này được cần đến. Chúng ta áp dụng mô
hình cho tập dữ liệu phân tích và sau đó sort kết quả. Có 60 trường hợp gian lận trong tập dữ
liệu phân tích gồm 4000 quan sát. Ở đây điểm phân cách hợp lý sẽ là giá trị lớn nhất thứ 60
tính từ hàm số trên tập dữ liệu phân tích. Giá trị này bằng 0.196197. Điểm phân chia cho dự
đoán 0.19615 được sử dụng. Điều này dẫn đến ma trận trùng được cho ở Bảng 6.28.
Bảng 6.27 Kết quả chạy hồi qui dữ liệu gian lận bảo hiểm
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.203298
R Square 0.04133
Adjusted R Square 0.03989
Standard Error 0.119118
Observations 4000

ANOVA
df SS MS F Significance F
Regression 6 2.442607 0.407101 28.69096 8.81E-34
Residual 3993 56.65739 0.014189
Total 3999 59.1

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 0.0081 0.012594 0.643158 0.520158 -0.01659 0.032792
Tuổi 0.001804 0.005147 0.350421 0.726041 -0.00829 0.011894
Giới tính -0.00207 0.003772 -0.54928 0.582843 -0.00947 0.005323
Số tiền đòi BH 0.007607 0.0191 0.398289 0.690438 -0.02984 0.045054
Vé phạt -0.0076 0.004451 -1.70738 0.08783 -0.01633 0.001127
Số lần đòi BH trước đây 0.000148 0.004174 0.035408 0.971756 -0.00804 0.008332
Luật sư 0.201174 0.018329 10.97554 1.24E-27 -0.165238 0.237109

Bảng 6.28 Ma trận trùng hợp ngẫu nhiên, hồi qui bình phương bé nhất OLScho dữ liệu gian lận
bảo hiểm, tập dữ liệu dùng để kiểm tra mô hình
Thực tế Gian lận theo mô hình OK theo mô hình Tổng cộng
Gian lận 5 17 22
OK 17 961 978
Tổng cộng 22 978 1000

Mô hình có tỷ lệ phân biệt đúng là 0.966, rất cao. Mô hình áp dụng dữ liệu kiểm tra đã dự
đoán được 22 trường hợp gian lận và 978 trường hợp không gian lận. Trên 22 trường hợp bị
dự đoán là gian lận có 5 trường hợp thật sự có gian lận do đó mô hình đã đưa tới việc điều tra
17 trường hợp trong tập dữ liệu kiểm tra mà không thực sự có gian lận. Trong 978 trường hợp
kiểm tra mà mô hình dự đoán là OK thì có 17 trường hợp thật sự có gian lận và sẽ không có bị
điều tra. Nếu chi phí điều tra mỗi gian lận là 500$ và chi phí thất thoát là 2.500$ thì tổng chi
phí trung bình là (500+2500)×17 =51.000$

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 110
Khai thác dữ liệu trong kinh doanh Chương 6

Mô hình phân tích biệt số centroid


Chúng ta có thể so sánh mô hình trước với mô hình biệt số centroid. Tập dữ liệu phân tích
được sử dụng để nhận diện giá trị biến trung bình cho hai kết cục Gian lận và Ok thể hiện tại
Bảng 6.29. Khoảng cách bình phương tới mỗi một trong 3 cụm được áp dụng trên 1.000 quan
sát kiểm tra mô hình đưa tới ma trận trùng hợp ngẫu nhiên ở Bảng 6.30.

Ở đây tỷ lệ phân loại đúng là 0.852 hơi thấp hơn một chút so với mô hình hồi qui. Mô hình
có nhiều điểm sai đó là người xin vay mà có trả nợ đàng hoàng lại bị từ chối cho vay. Cũng có
hai trường hợp mà người vay nợ không trả được nhưng lại được đồng ý cho vay. Chi phí cho
sai lầm ở đây là 500×133 + 2500×15 = 104.000$
Bảng 6.29 Trung bình theo hàm phân biệt Centroid
Cụm Tuổi Giới tính Tiền đòi bảo hiểm Vé phạt Số lần đòi trước đây Luật sư
Ok 0.671 0.497 0.606 0.068 0.090 0.012
Gian lận 0.654 0.467 0.540 0.025 0.275 0.217

Bảng 6.30 Ma trận trùng– Mô hình biệt số centroid – Tập dữ liệu gian lận bảo hiểm để kiểm tra
mô hình
Thực tế Mô hình dự đoán gian lận Mô hình dự đoán chấp nhận Tổng cộng
Gian lận 7 15 22
Chấp nhận 133 845 978
Tổng cộng 140 860 1000

Mô hình hồi qui logistic


Mô hình hồi qui logistic chạy trên phần mềm SAS. Biến giới tính và luật sư là biến dạng 0-1 tức
là dạng phân loại. Mô hình căn cứ trên ước lượng thích hợp cực đại được thể hiện ở Bảng 6.31.

Toàn bộ kết quả đạt được ở giữa 0 và 1, nhưng cực đại là 0.060848. Điểm phân chia giữa
quan sát lớn nhất thứ 60 và 61 trên các giá trị phân tích là 0.028. Với điểm phân chia này ma
trận trùng hợp ngẫu nhiên đạt được như Bảng 6.32
Bảng 6.31 Mô hình hồi qui logistic Dữ liệu gian lận bảo hiểm
Hệ số df Estimate Std. Error Chi-square Pr>Chisq
bậc tự do Ước Sai số Chi bình Sig
lượng chuẩn phương
Intercept 1 -2.9821 0.7155 17.3702 <0.0001
Tuổi 1 0.1081 0.3597 0.0903 0.7637
Tiền đòi bảo hiểm 1 0.3219 1.2468 0.0667 0.7962
Vé phạt 1 -0.8535 0.5291 2.6028 0.1067
Số vụ tai nạn trước đây 1 0.0033 0.3290 0.0001 0.9920
Giới tính 0 1 0.0764 0.1338 0.3260 0.5680
Luật sư 0 1 -1.6429 0.4107 15.9989 <0.0001

Bảng 6.32 Ma trận trùng – hồi qui logistic của dữ liệu gian lận bảo hiểm
Thực tê Mô hình dự đoán gian lận Mô hình dự đoán chấp nhận Tổng cộng
Gian lận 5 17 22
Chấp nhận 16 962 978
Tổng cộng 21 979 1000
Tỷ lệ phân loại đúng khá cao là 0.967. Chi phí cho sai lầm là 500×16 + 2500×17 = 50.500$

Dữ liệu về xin việc làm


Dữ liệu xin việc làm bao gồm 500 quan sát, vì có 4 kết cục riêng biệt, phân tích biệt số là phù
hợp. (Phân tích cụm có thể áp dụng trước đó để nhận diện được 4 nhóm kết cục này). Chúng
ta sẽ sử dụng 250 quan sát cho phân tích và kiểm tra mô hình trên 250 quan sát còn lại. Rất dễ
dùng Excel cho việc tính toán khoảng cách. Bước đầu tiên là chuyển dữ liệu về thang điểm 0-
1.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 111
Khai thác dữ liệu trong kinh doanh Chương 6

Tuổi <20 0
20-50 (Age-20)/30
>50 1.0
Bang CA 1.0
Rest 0
Bằng cấp Cert 0
UG 0.5
Rest 1.0
Chuyên môn IS 1.0
Csci, Engr, Sci 0.9
BusAd 0.7
Other 0.5
None 0
Kinh nghiệm Min (1, years/5)

Trong Excel chúng ta đặt biến kết quả ở bên trái của 4 cột dữ liệu đã chuyển đổi để chúng ta
có thể sắp xếp 250 quan sát của tập dữ liệu phân tích theo kết quả. Điều này đơn giản hóa việc
tính toán trung bình cho mỗi trong 4 biến theo mỗi trong 4 kết cục. Bảng 6.33 cung cấp các
thông tin này.

Khoảng cách từ mỗi 250 quan sát kiểm tra được đo lường đến các trị trung bình này, sử dụng
đo lường khoảng cách bình phương. Quan sát thứ 251 là một người xin việc 28 tuổi từ Utah
có chứng chỉ nghề nghiệp (không có chuyên môn cao – no major) và 6 năm kinh nghiệm (kết
cục Lương tối thiểu). Đầu tiên dữ liệu cần được chuyển đổi. Tuổi bằng 28 tức là 8 năm trên
mức tuổi tối thiểu, đạt được giá trị chuyển đổi là 0.267. Giá trị Major đã chuyển đổi là 0, giá
trị Bằng cấp đã chuyển đổi là 0 và giá trị Chuyên môn đã chuyển đổi là 0. Sáu năm kinh
nghiệm chuyển đổi thành giá trị 1.0. Tính toán khoảng cách được thể hiện trong Bảng 6.34.

Tổng bình phương khoảng cách tối thiểu là của nhóm quá thấp. Ở đây khoảng cách tối thiểu
là trung bình của nhóm quá thấp. Bảng 6.35 thể hiện ma trận trùng cho toàn bộ 250 quan sát
của tập dữ liệu kiểm tra.

Cái phương pháp này đã phân biệt đúng 119 trên 250 tình huống với cải tỷ lệ phân biệt đúng
là 0.476. Khá thuyết phục với việc dự đoán các tình huống đặc biệt.

Dữ liệu xin vay nợ.


Clementine được sử dụng để xây dựng mô hình hồi qui liên tục trên tập dữ liệu phân tích gồm
400 quan sát đầu tiên. Đạt được mô hình như sau :
Dự đoán = 0.5527 + 0.1138 tuổi + 0.2073 thẻ tín dụng + 0.08547 thu nhập + 0.1355 rủi ro
Biến Thẻ tín dụng có ý nghĩa cao, mặc dù đo lường xác suất của mức ý nghĩa cho biến Rủi ro
chỉ có 0.065, cho Thu nhập 0.247, và cho tuổi 0.263. Về toàn diện R2 là 0.125. Với 400 quan
sát dùng phân tích 45 mang giá trị 0 (không trả đúng hạn) và 355 mang giá trị 1 (trả đúng
hạn). Mô hình được áp dụng cho Excel cho tập dữ liệu phân tích và kết quả mô hình được sắp
xếp lại. 45 quan sát nhỏ nhất được sắp ở trên 0.251, mà được sử dụng như điểm phân cách.
Mô hình sau đó được áp dụng (trong Excel) cho 250 quan sát phân tích, sử dụng điểm phân
cách để dự đoán. Kết quả thể hiện trong Bảng 6.36. Mô hình có tỉ lệ phân biệt đúng là 0.88,
khá tốt. Tuy nhiên Mô hình dự đoán không tốt những trường hợp trả trễ (chỉ đúng cho 40%).

Mô hình hồi qui logistics được hình thành thông qua phần mềm SAS sử dụng tập dữ liệu phân
tích gồm 250 quan sát thuộc dạng dữ liệu phân loại. Mỗi trong 4 biến có 3 phân loại đã được
mô tả ở trước. Mô hình SAS cho dữ liệu này được thể hiện trong Bảng 6.37.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 112
Khai thác dữ liệu trong kinh doanh Chương 6

Bảng 6.33 Trung bình của từng biến đã được chuyển đổi theo từng kết cục của bộ dữ liệu xin việc
Tuổi Bang Bằng cấp Chuyên môn Kinh nghiệm
Quá thấp 0.156322 0.137931 0.241379 0.186207 0.475862
Tổi thiểu 0.232068 0.303797 0.594937 0.517722 0.772152
Trung bình 0.292346 0.237037 0.707407 0.833333 0.903704
Cao 0.338095 0.285714 0.571429 0.985714 0.942857

Bảng 6.34 Tính toán các khoảng cách bình phương


Trung bình Tuổi Bang Bằng cấp Chuyên môn Kinh nghiệm Tổng cộng
(0.267 -0.156)2 (0 -0.138)2 (0 - 0.241)2 (0 -0.186)2 (1 - 0.476)2
Quá thấp 0.012176 0.019025 0.058264 0.034673 0.274721 0.398859
(0.267 - 0.232)2 (0 - 0.304)2 (0 - 0.594)2 (0 - 0.518)2 (1 - 0.772)2
Tổi thiểu 0.001197 0.092293 0.35395 0.268036 0.051915 0.76739
(0.267 - 0.292)2 (0 - 0.237)2 (0 - 0.707)2 (0 - 0.833)2 (1 - 0.904)2
Trung bình 0.000659 0.056187 0.500425 0.694444 0.009273 1.260989
(0.267 - 0.338)2 (0 - 0.286)2 (0 - 0.571)2 (0 - 0.986)2 (1 - 0.943)2
Cao 0.005102 0.081633 0.326531 0.971633 0.003265 1.388163

Bảng 6.35 Ma trận trùng của tập dữ liệu xin việc sử dụng khoảng cách bình phương
Theo mô hình
Thực tế Tổng cộng
Quá thấp Tổi thiểu Trung bình Cao
Quá thấp 19 5 6 0 30
Tổi thiểu 28 14 33 1 76
Trung bình 2 16 73 37 128
Cao 0 0 3 13 16
Tổng cộng 49 35 115 51 250

Bảng 6.36 Ma trận trùng của mô hình hồi qui trên tập dữ liệu xin vay
Trễ hạn theo Đúng hạn theo
Total
mô hình mô hình
Thực tế trễ hạn 8 12 20
Thực tế đúng hạn 18 212 230
Totals 26 224 250

Bảng 6.37 Ma trận trùng của mô hình hồi qui trên tập dữ liệu xin vay
Tham số Phân loại Ước lượng Chi-Square Pr>Chisq
Hằng số 2.0909 13.1026 0.0003
Tuổi Trung bình 0.6186 1.5904 0.2073
Tuổi Già - 0.8939 1.0538 0.3046
Thu nhập Trung bình - 0.2897 0.6358 0.4252
Thu nhập Cao 1.1789 4.4098 0.0357
Rủi ro Trung bình 0.4902 0.3986 0.5278
Rủi ro Cao - 1.075 4.5589 0.0327
Tín dụng Vàng - 0.5198 2.7202 0.0991
Tín dụng Xanh 1.4185 16.7962 <0.0001

Bảng 6.38 Ma trận trùng của mô hình hồi qui logistic trên tập dữ liệu phân tích xin vay nợ
Mô hình
Thực tế Tổng cộng
Không trả Trả
Không trả 9 0 9
Trả 25 216 241
Tổng cộng 34 216 250

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 113
Khai thác dữ liệu trong kinh doanh Chương 6

Kết quả chỉ ra rằng điểm tín dụng màu xanh là chỉ báo dự đoán đặc biệt hiệu quả trong khi thu
nhập cao và rủi ro cao (nghịch biến) cũng rất có ý nghĩa. Tỷ lệ tín dụng màu vàng cũng khá có
ý nghĩa theo cách nghịch chiều. Để sử dụng mô hình này chúng ta cần phải biết được điểm
phân cách cho các giá trị quan sát. Dữ liệu phân tích được sắp xếp bởi điểm mô hình với 29
quan sát nghịch chiểu trong tập dữ liệu phân tích này. Điểm số mô hình nhỏ nhất thứ 29 là
0.7262 (được chia sẻ bởi 12 quan sát vì dữ liệu phân loại chỉ bao gồm 81 kết hợp riêng lẻ của
các giá trị biến) áp dụng mô hình này cho 250 quan sát còn lại chúng ta đạt được ma trận
trùng hợp ngẫu nhiên trong Bảng 6.38 vì thể mô hình đạt tỉ lệ phân loại 0.9. Có một sự
nghiêng lệch mạnh về phía các trường hợp Trả (OK) nhưng toàn bộ 9 trong 25 trường hợp mà
thật sự có gian lận là được phân loại đúng.

TÓM TẮT
Mô hình hổi qui được sử dụng phổ biến trong mô hình phân loại. Chúng tiếp tục được sử
dụng rất hữu ích trong lĩnh vực khai thác dữ liệu mà khác biệt một cách cơ bản với các lĩnh
vực khác về thang đo dữ liệu và số lượng biến được sử dụng. Hổi qui kinh điển (sử dụng
phương pháp bình phương bé nhất) có thể sử dụng cho dữ liệu liên tục. Nếu biến kết quả là
biến dạng phân loại, người ta dùng hồi qui logistic. Hồi qui có thể áp dụng để nhận diện một
hàm biệt số, phân tách các trường hợp thành các nhóm. Nếu thực hiện các việc đó, cần nhận
diện được điểm phân cách giúp để phân biệt các quan sát căn cứ trên điểm tính từ hàm biệt số.
Dù cho phân tích biệt số có thể áp dụng cho nhiều nhóm nhưng cũng sẽ rất phức tạp khi có
trên hai nhóm. Vì thế các phương pháp biệt số khác như biệt số centroid đã minh họa ở
chương này thường được sử dụng.
Hồi qui thường được áp dụng trên các phần mềm quen thuộc như SAS hay SPSS hoặc Excel.
Ngoài ra có một số phương pháp hồi qui cải tiến như hồi qui tuyến tính từng bước (stepwise)
được sử dụng trong chương trình Poly Analyst. Hồi qui Stepwise sử dụng hệ số tương quan
riêng phần để chọn biến độc lập đưa vào, phương pháp này là một bước phát triển của việc
chạy hồi qui tự động, nhưng vẫn còn nhiều ý kiến phê phán hoặc tán đồng.

Chú thích thuật ngữ

Analysis of Variance (ANOVA) phân tích sai số của mô hình (đặc biệt là khác biệt giữa các
nhóm)
Phân tích biệt số: nhận các phân loại mà một quan sát có nhiều khả năng thuộc về
Phân tích biệt số tuyến tính: phân tích biệt số căn cứ trên hàm biệt số được nhận diện thông
qua hàm hồi qui tuyến tính.
Hồi qui logistic: Hồi qui căn cứ trên xác suất của tư cách thành viên trong một của hai hoặc
nhiều nhóm.
Neural network (mạng thần kinh): mô hình trí tuệ nhân tạo căn cứ trên việc phù hợp dữ liệu
với mạng các vòng cung sử dụng trọng số .
Regression: mô hình toán phù hợp với dữ liệu căn cứ trên việc tối thiểu hóa sai số.
Tổng bình phương sai số (SSE) : sai số của mô hình được bình phương và cộng lại
Chuỗi thời gian: Tập dữ liệu về một biến được đo lường qua thời gian.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 114
Khai thác dữ liệu trong kinh doanh Chương 6

Bài tập

1. Hãy áp dụng thuật toán hồi qui cho tập dữ liệu về người xin việc. Dùng 400 quan sát đầu
tiên như tập dữ liệu phân tích, rồi áp dụng nó cho 100 quan sát còn lại. Dùng điểm số
trong Bảng 6.14. Nếu có sẵn phần mềm khai thác dữ liệu hãy so sánh kết quả của hồi qui,
hồi qui logistic và mạng thần kinh. Dùng phần mềm khai thác dữ liệu nếu có, không thì
dùng Excel, lập ma trận trùng hợp ngẫu nhiên cho dữ liệu này.
2. Nếu có sẵn phần mềm khai thác dữ liệu hãy so sánh mô hình hồi qui và hồi qui logistic
(mã hóa biến kết quả thành 4 phân loại biết trước) cho tập dữ liệu về người xin việc. Dùng
400 quan sát đầu tiên như tập dữ liệu phân tích, và 100 quan sát còn lại để kiểm tra mô
hình. So sánh ma trận trùng hợp cho tập dữ liệu này.
3. Hãy áp dụng thuật toán hồi qui thông thường cho tập dữ liệu về xin vay. Dùng 500 quan
sát đầu tiên như tập dữ liệu phân tích, rồi áp dụng nó cho 100 quan sát còn lại. Dùng phần
mềm khai thác dữ liệu nếu có, không thì dùng Excel, lập ma trận trùng hợp ngẫu nhiên.
4. Nếu có sẵn phần mềm khai thác dữ liệu hãy so sánh mô hình hồi qui thông thường và hồi
qui logistic (dùng mã hóa nhị phân cho biến kết quả) cho tập dữ liệu xin vay. Dùng 500
quan sát đầu tiên như tập dữ liệu phân tích, rồi áp dụng nó cho 100 quan sát còn lại. Dùng
phần mềm khai thác dữ liệu nếu có, không thì dùng Excel, lập ma trận trùng hợp ngẫu
nhiên. So sánh ma trận trùng hợp ngẫu nhiên của tập dữ liệu này với kết quả từ bài 3
5. Hãy áp dụng thuật toán hồi qui cho tập dữ liệu về gian lận bảo hiểm. Chuyển đổi tuổi
bằng cách mã 20 (hoặc trẻ hơn) là 0 ; 50 (hoặc già hơn) là 1 ; và mọi mức tuổi ở giữa là
(tuổi-20)/30. Chuyển đổi giới tính là (0 hoặc 1). Chuyển đổi biến Số tiền đòi bảo hiểm
bằng cách chia nó cho 5.000. Chuyển đổi biến số vé phạt và số lần đòi bảo hiểm trước đây
như sau : 0 = 0 ; 1= 0,5 : 2 trở lên = 1. Chuyển đổi biến luật sư là «không» = 0 và tất cả
các trường hợp còn lại là 1. Dùng 1.000 quan sát đầu tiên như tập dữ liệu phân tích, rồi áp
dụng nó cho 1.000 quan sát còn lại. Dùng phần mềm khai thác dữ liệu nếu có, không thì
dùng Excel, lập ma trận trùng ngẫu nhiên.
6. Nếu có sẵn phần mềm khai thác dữ liệu hãy so sánh mô hình hồi qui và hồi qui logistic
(mã hóa biến kết quả thành 0 và 1) cho tập dữ liệu về gian lận bảo hiểm. Dùng 1.000 quan
sát đầu tiên như tập dữ liệu phân tích, rồi áp dụng nó cho 1000 quan sát còn lại. Dùng
phần mềm khai thác dữ liệu nếu có, không thì dùng Excel, lập ma trận trùng hợp ngẫu
nhiên. So sánh ma trận trùng hợp ngẫu nhiên của tập dữ liệu này với kết quả từ bài 5.
7. Hãy áp dụng thuật toán hồi qui logistic cho tập dữ liệu về Chi tiêu nhằm nhận diện những
nhóm người chi tiêu theo những tỷ lệ phần trăm nhất định thu nhập của họ cho việc ăn nhà
hàng như sau : Dưới 1% : Từ 1-5% ; 5-10% : trên 10%. Sử dụng 12 biến đầu tiên (từ tuổi
đến số dư thẻ tín dụng bị hủy năm trước) dưới dạng chuẩn hóa. Sử dụng 5000 quan sát
như tập dữ liệu phân tích và áp dụng nó cho 1000 quan sát kiểm tra mô hình. Dùng phần
mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng hợp ngẫu nhiên.
8. Dùng file dữ liệu chi tiêu, áp dụng mô hình hồi qui logistic nhận dạng các nhóm người chi
tiêu theo những tỷ lệ phần trăm nhất định thu nhập của họ cho hàng thực phẩm như sau :
Dưới 1% : Từ 1-5% ; 5-10% : trên 10%. Sử dụng dữ liệu dưới dạng chuẩn hóa của 12 biến
đầu tiên (từ tuổi đến số dư thẻ tín dụng bị hủy năm trước) như biến độc lập. Sử dụng 5000
quan sát như tập dữ liệu phân tích và áp dụng nó cho 1000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng hợp ngẫu nhiên.
9. Dùng file dữ liệu chi tiêu, áp dụng mô hình hồi qui logistic nhận dạng các nhóm người chi
tiêu theo những tỷ lệ phần trăm nhất định thu nhập của họ cho nhà ở như sau: Dưới 10% :
Từ 10-30% ; 30-50% : trên 50%. Sử dụng dữ liệu dưới dạng chuẩn hóa của 12 biến đầu

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 115
Khai thác dữ liệu trong kinh doanh Chương 6

tiên (từ tuổi đến số dư thẻ tín dụng bị hủy năm trước) như biến độc lập. Sử dụng 5.000
quan sát như tập dữ liệu phân tích và áp dụng nó cho 1000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng hợp ngẫu nhiên.
10. Dùng file dữ liệu chi tiêu, áp dụng mô hình hồi qui logistic nhận dạng các nhóm người chi
tiêu theo những tỷ lệ phần trăm nhất định thu nhập của họ cho tiện ích như sau : Dưới
1% : Từ 1-5% ; 5-10% : trên 10%. Sử dụng dữ liệu dưới dạng chuẩn hóa của 12 biến đầu
tiên (từ tuổi đến số dư thẻ tín dụng bị hủy năm trước) như biến độc lập. Sử dụng 5.000
quan sát như tập dữ liệu phân tích và áp dụng nó cho 1.000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng hợp ngẫu nhiên.
11. Dùng file dữ liệu chi tiêu, áp dụng mô hình hồi qui logistic nhận dạng các nhóm người chi
tiêu theo những tỷ lệ phần trăm nhất định thu nhập của họ cho việc sở hữu vận hành ô tô
như sau : Dưới 1% : Từ 1-5% ; 5-10% : trên 10%. Sử dụng dữ liệu dưới dạng chuẩn hóa
của 12 biến đầu tiên (từ tuổi đến số dư thẻ tín dụng bị hủy năm trước) như biến độc lập.
Sử dụng 5000 quan sát như tập dữ liệu phân tích và áp dụng nó cho 1000 quan sát kiểm
tra mô hình. Dùng phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng hợp ngẫu
nhiên.
12. Dùng file dữ liệu chi tiêu, áp dụng mô hình hồi qui logistic nhận dạng các nhóm người chi
tiêu theo những tỷ lệ phần trăm nhất định thu nhập của họ cho quần áo như sau : Dưới
5% : Từ 5-10% ; 10-20% : trên 20%. Sử dụng dữ liệu dưới dạng chuẩn hóa của 12 biến
đầu tiên (từ tuổi đến số dư thẻ tín dụng bị hủy năm trước) như biến độc lập. Sử dụng 5000
quan sát như tập dữ liệu phân tích và áp dụng nó cho 1000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng hợp ngẫu nhiên.
13. Dùng file dữ liệu chi tiêu, áp dụng mô hình hồi qui logistic nhận dạng các nhóm người chi
tiêu theo những tỷ lệ phần trăm nhất định thu nhập của họ cho giải trí như sau : Dưới 1% :
Từ 1-5% ; 5-10% : trên 10%. Sử dụng dữ liệu dưới dạng chuẩn hóa của 12 biến đầu tiên
(từ tuổi đến số dư thẻ tín dụng bị hủy năm trước) như biến độc lập. Sử dụng 5000 quan sát
như tập dữ liệu phân tích và áp dụng nó cho 1000 quan sát kiểm tra mô hình. Dùng phần
mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng hợp ngẫu nhiên.

Kết chú

1 rd
. T.Dielman, Applied Regression Analysis for Business and Economics, 3 ed., Duxbury, 2001, pp.
563-570.
2
. Ibid.
3
. D.P.Foster and R.A.Stine, “Variable Selection in Data Mining: Building a Predictive Model for
Bankruptcy,” Journal of the American Statistical Association, volume 99, number 466, 2004, pp. 303-
313.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 116

You might also like