Professional Documents
Culture Documents
DataMining - Chuong 4
DataMining - Chuong 4
CHƯƠNG 4
Dữ liệu hữu ích cho kinh doanh có dưới nhiều hình thức khác nhau. Ví dụ như, một công ty
bảo hiểm xe ô tô đang đối mặt với hàng triệu yêu cầu đòi bồi thường, nhận ra rằng không phải
tất cả các yêu cầu đó đều chính đáng (xác thực). Nếu họ quyết định làm thật chặt chẽ và điều
tra tất cả các yêu cầu bồi thường một cách cặn kẽ thì khoản chi phí tiêu tốn cho việc điều tra
sẽ cao hơn cả chi phí trả cho việc bồi thường bảo hiểm. Họ cũng phát hiện ra là họ sẽ không
thể bán được bất cứ một hợp đồng bảo hiểm mới nào (nếu họ làm chặt chẽ như vậy). Nếu họ
luôn luôn “tin tưởng và thấu hiểu” như những lời họ vẫn quảng cáo trên ti vi thì họ nên giảm
chi phí điều tra xuống còn zero, và chấp nhận chịu thiệt vì những đòi hỏi bồi thường không
trung thực. Các hãng bảo hiểm đã tìm cách lập hồ sơ theo dõi (profile) các yêu cầu bồi
thường, xem xét nhiều biến liên quan đến tiến trình này, và nhờ đó đã phát hiện ra những dấu
hiệu chỉ báo sớm của các trường hợp đáng để đầu tư chi phí điều tra (vì có dấu hiệu gian lận).
Việc làm này đã có tác động giúp giảm toàn bộ chi phí của hợp đồng vì nó làm nản lòng
những người gian lận và hạn chế được những khoản tiền đòi hỏi bồi thường thái quá (tức là
nó giúp công ty giảm được các chi phí bồi thường thiệt hại nhờ đó giảm tổng chi phí nên chi
phí trên mỗi đơn vị hợp đồng cũng giảm theo). Cách làm này cũng được Cơ quan thuế áp
dụng trong tiến trình xử lý hoàn trả thuế thu nhập cá nhân đã nộp. Khai thác dữ liệu để phát
hiện gian lận đã phát triển thành một ngành công nghiệp tồn tại độc lập với rất nhiều nhà cung
cấp phần mềm. Đây là một trong nhiều ứng dụng tiêu biểu của khai thác dữ liệu.
Khai thác dữ liệu có thể được tiến hành trong nhiều bối cảnh kinh doanh. Chương này trình
bày 4 bộ dữ liệu sẽ được sử dụng để minh họa cho các kỹ thuật được giới thiệu trong Phần II
(Chương 4 đến Chương 9). Bên cạnh ví dụ về lừa đảo trong bảo hiểm, các file dữ liệu được
xây dựng để phản ánh các ứng dụng khác trong kinh doanh như thẩm định tín dụng và phân
khúc khách hàng. Khái niệm tương tự có thể áp dụng cho các ứng dụng khác, chẳng hạn như
đánh giá nhân viên.
Cho tới bây giờ chúng ta đã mô tả khai thác dữ liệu, tiến trình của nó và hệ thống lưu trữ dữ
liệu giúp cho tiến trình khai thác dữ liệu tiến hành được. Phần kế tiếp của cuốn sách khảo sát
các phương pháp khai thác dữ liệu. Các công cụ khai thác dữ liệu được chia thành Phân loại,
Ước lượng, Phân cụm/lập nhóm, và Tổng hợp. Phân loại và ước lượng là dự đoán trong khi
Phân cụm và tổng hợp là mô tả 1. Không phải tất cả các phương pháp khai thác dữ liệu đều
được trình bày hết ở đây, nhưng đây là những phương pháp phổ biến nhất. Chúng tôi sẽ minh
họa các phương pháp này với những bộ dữ liệu ví dụ nhỏ nhằm mô tả phương pháp được tiến
hành như thế nào. Chúng tôi không có ý nhấn mạnh dữ liệu này có quy mô gần với quy mô
thực của dữ liệu của những ứng dụng khai thác dữ liệu trong kinh doanh thực tế. Mà chúng
chỉ là một phiên bản nhỏ của tình huống thật và như vậy thuận lợi hơn hẳn cho việc minh họa
các khái niệm (vì nhỏ nên dễ theo dõi, hình dung).
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 48
Khai thác dữ liệu trong kinh doanh Chương 4
Chương này nhắm vào việc bao quát các nội dung kế tiếp của sách, trình bày nhiều kỹ thuật
mô hình hóa. Trong chương này chúng tôi mô tả bao quát các kỹ thuật này. Sau đó chúng tôi
trình bày 4 tập dữ liệu sẽ được sử dụng thông qua các mô hình để minh họa phương pháp trên
các bộ dữ liệu đại diện. Những bộ dữ liệu này được giả lập để phản ảnh các ứng dụng khai
thác dữ liệu thông dụng. Cũng như các bộ dữ liệu thật, chúng bao gồm các thông tin mà có thể
sử dụng tốt hoặc không tốt. Tại phần phụ lục của chương này mô tả ngắn gọn về phần mềm
khai thác dữ liệu Enterprise Miner. Phần phụ lục này trình bày một số khả năng của phần
mềm trong việc cung cấp các công cụ trực quan.
Khai thác dữ liệu sử dụng nhiều công cụ mô hình hóa phục vụ cho nhiều mục tiêu khác nhau.
Nhiều tác giả đã trình bày các mục tiêu này cùng với các công cụ sẵn có (xem Bảng 4.1).
Radding (1997) đã đưa ra 7 thuật toán chính cho việc khai thác dữ liệu dữ liệu định hướng thị
trường 2. Peacock (1998) đưa ra các hàm khai thác dữ liệu 3. Những phương pháp này xuất
phát từ cả thống kê kinh điển lẫn trí tuệ nhân tạo 1. Kỹ thuật thống kê có công cụ chuẩn đoán
rất mạnh giúp xây dựng khoảng tin cậy cho ước lượng tham số, kiểm định giả thuyết và
những thứ khác. Kỹ thuật Trí tuệ nhân tạo yêu cầu ít giả định hơn về dữ liệu và nói chung là
tự động nhiều hơn.
Kỹ thuật hồi qui bao gồm nhiều thể loại, ví dụ như Hồi qui bình phương bé nhất, hồi qui
logistic (sử dụng khi biến kết quả là nhị phân), và phân tích biệt số (sử dụng khi biến phụ
thuộc dạng phân loại và được xác định trước). Hồi qui trị tuyệt đối bé nhất được sử dụng phổ
biến thông qua quy hoạch tuyến tính. Chúng ta nghiên cứu cả quy hoạch tuyến tính đa điều
kiện trong chương 9. Mạng thần kinh cũng sử dụng tốt cho các nhiệm vụ đa dạng. Quy tắc kết
hợp được sử dụng trong kỹ thuật phân lớp, cũng như kĩ thuật mô tả được sử dụng trong phân
tích rổ hàng mua. Thuật toán gien (thuật toán di truyền) là một công cụ đặc biệt có thể sử
dụng để gia tăng hiệu quả của một số thuật toán khác. Phân tích liên kết là một dạng nhận
diện mối quan hệ đặc biệt hữu dụng trong khám phá gian lận hoặc khám phá những vấn đề
khác. Cuối cùng, có nhiều cách để trong đó các công cụ truy vấn (chẳng hạn OLAP đã nhắc
đến trong chương 3), thống kê mô tả và trực quan hóa (vẽ sơ đồ dữ liệu và thiết lập các mối
quan hệ) hỗ trợ việc phân tích khai thác dữ liệu.
Bảng 4.1: Các công cụ khai thác dữ liệu
Thuật toán của Radding Hàm của Peacock Nền tảng Nhiệm vụ Trình bày tại
Khám phá cụm Phân tích cụm Thống kê Phân loại Chương 5
Mô hình hồi qui Thống kê Ước lượng Chương 6
Hồi qui logistic Thống kê Phân loại Chương 6
Phân tích biệt số Thống kê Phân loại Chương 6
Mạng –thần kinh Trí tuệ nhân tạo Phân loại Chương 7
Mạng –thần kinh
Mạng Kohonen Trí tuệ nhân tạo Cụm Chương 7
Cây quyết định Quy tắc liên kết Trí tuệ nhân tạo Phân loại Chương 8
Quy nạp quy tắc Quy tắc liên kết Trí tuệ nhân tạo Mô tả Chương 8
Phân tích liên kết Mô tả Chương 10
Công cụ truy vấn Mô tả
Thống kê mô tả Thống kê Mô tả
Công cụ trực quan hóa Thống kê Mô tả
Điểm mấu chốt của khai thác dữ liệu là có nhiều công cụ sẵn có để hỗ trợ các nhà phân tích và
người sử dụng hiểu rõ dữ liệu của họ chứa đựng cái gì. Mỗi phương pháp có cái riêng, và mỗi
1
Bản chất của TTNT là làm sao đưa được tri thức con người vào máy dưới những dạng máy hiểu được, và cung cấp cho máy khả năng suy
diễn để khai thác các tri thức này. Cốt lõi của TTNT có thể diễn giải bởi công thức TTNT = Tri thức + Suy diễn
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 49
Khai thác dữ liệu trong kinh doanh Chương 4
vấn đề cụ thể sẽ được xử lý tốt nhất bằng một phương pháp cụ thể nào đó. Tuy nhiên một số
phương pháp khác nhau cũng có thể dùng để giải quyết một vấn đề. Hầu hết các phương pháp
có liên quan đến việc xác lập các tham số, các tham số này trở nên quan trọng khi xét đến hiệu
lực của phương pháp . Hơn nữa, các kết quả cần phải được giải thích.
Có một số trùng lắp. Phân tích cụm giúp các người khai thác dữ liệu hình dung mối liên hệ
giữa các khách mua hàng, và khi được hỗ trợ bởi công cụ trực quan hóa mang lại một góc
nhìn khác. Phân tích liên kết giúp nhận diện những kết nối giữa các biến thường được trình
bày trực quan thông qua sơ đồ. Một ví dụ về ứng dụng của Phân tích liên kết có thể thấy trong
ngành điện thoại trong đó các cuộc gọi được thể hiện như liên kết giữa người gọi và người
nghe 4. Một ví dụ khác về liên kết là kiểu mẫu tham khảo bác sĩ điều trị. Bệnh nhân có thể đến
gặp bác sĩ quen của họ, bác sĩ này phát hiện ra những điều họ không biết nhiều. Họ xem xét
mạng các mối quan hệ để tìm ra một chuyên gia đáng tin cậy để tham khảo ý kiến. Các phòng
khám là tập hợp các chuyên gia điều trị, có thể được tham khảo trong những trường hợp khó
khăn đặc biệt.
Các phương pháp có thể được xem xét từ nhiều góc độ khác nhau. Từ góc độ của thống kê và
nghiên cứu hoạt động, các phương pháp khai thác dữ liệu bao gồm 5:
Phân tích cụm (Chương 5)
Hồi qui với nhiều dạng (những phương pháp phù hợp nhất, Chương 6)
Phân tích biệt số (dùng hồi qui để phân biệt, Chương 6)
Đường phù hợp thông qua công cụ nghiên cứu quá trình của phương trình tuyến tính
đa mục tiêu (Chương 9)
Từ góc độ của trí tuệ nhân tạo, các phương pháp khai thác dữ liệu bao gồm
Mạng thần kinh (những phương pháp phù hợp nhất, Chương 7)
Quy nạp quy tắc (cây quyết định, Chương 8)
Thuật toán gien/di truyền (thường hỗ trợ những phương pháp khác)
Trong cuốn sách này chúng tôi kết hợp cách tiếp cận hồi qui và mạng thần kinh như những
phương pháp phù hợp nhất vì chúng thường được áp dụng cùng với nhau. Hồi qui có khuynh
hướng thuận lợi với dữ liệu tuyến tính trong khi mô hình mạng thần kinh lại rất phù hợp với
những dữ liệu bất quy tắc. Phần mềm cho phép người dùng áp dụng những biến thể của mỗi
phương pháp và cho phép nhà phân tích chọn mô hình phù hợp nhất. Phân tích cụm, phân tích
biệt số và suy luận căn cứ trên các trường hợp nhắm đến việc phân chia các trường hợp mới
vào các cụm gần nhất của các quan sát quá khứ. Quy nạp quy tắc là cơ sở của phương pháp
cây quyết định của khai thác dữ liệu. Giải thuật gien áp dụng cho các dạng đặc biệt của dữ
liệu, và thường được dùng để tăng cường hoặc phát triển tiến trình xử lý của các kỹ thuật
khác.
Khả năng của một số kĩ thuật kể trên để xử lý những vấn đề khai thác dữ liệu chung được so
sánh trong Bảng 4.2. Bảng này cho thấy có nhiều công cụ khác nhau cho nhiều loại vấn đề
khác nhau. Nếu dữ liệu đặc biệt bị nhiễu sẽ khó khăn khi áp dụng các kỹ thuật thống kê cổ
điển như hồi qui, phân tích cụm, phân tích biệt số. Các phương pháp sử dụng quy nạp quy tắc
và suy luận căn cứ trên các trường hợp có thể giải quyết nhiều vấn đề, nhưng nếu dữ liệu
nhiễu là những thông tin sai nó có thể dẫn đến các quy tắc bao gồm những điều sai. Mạng
thần kinh và Giải thuật gien đã được chứng minh là khá hữu dụng so với những phương pháp
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 50
Khai thác dữ liệu trong kinh doanh Chương 4
cổ điển trong môi trường dữ liệu rất phức tạp, trong đó có tương tác không tuyến tính giữa các
biến.
Bảng 4.2 Khả năng chung của các công cụ khai thác dữ liệu xử lý các đặc trưng dữ liệu
Đặc tính dữ liệu Quy nạp Mạng thần kinh Suy luận căn cứ Giải thuật gien
quy tắc trên các trường hợp
Dữ liệu nhiễu nắm được Tốt Rất Tốt Tốt Rất Tốt
Dữ liệu khuyết nắm được Tốt Tốt Rất Tốt Tốt
Xử lý tập dữ liệu lớn Rất Tốt Kém Tốt Tốt
Chuyển đổi Cần thực hiện
Xử lý loại dữ liệu khác Tốt Rất Tốt
thành số chuyển đổi
Dự đoán chính xác Cao Rất Cao Cao Cao
Khả năng giải thích Rất Tốt Kém Rất Tốt Tốt
Dễ kết hợp Tốt Tốt Tốt Rất Tốt
Dễ thao tác Dễ Khó Dễ Khó
Nguồn: trích từ Bose and Mahapatra (2001)
Mạng thần kinh có một bất lợi tương đối khi làm việc với nhiều biến vì sự phức tạp về tính toán
gia tăng nhanh chóng. Giải thuật gien đòi hỏi một cấu trúc dữ liệu cụ thể để có thể thao tác
được, không phải luôn dễ dàng chuyển hóa dữ liệu để đạt được yêu cầu này.
Mặt tiêu cực khác của mạng thần kinh là bản chất bị che khuất của nó, vì có rất nhiều điểm
kết nối nên in ra giấy và phân tích một mô hình mạng thần kinh lớn là không thực tế. Nó gây
khó khăn cho việc chạy một mô hình mà được xây dựng trên hệ thống này và sau đó chuyển
hóa sang một hệ thống khác. Vì thế dữ liệu mới phải được nhập vào hệ thống đã dùng xây
dựng mô hình mạng thần kinh để áp dụng cho các trường hợp mới. Điều này làm cho hầu như
không thể áp dụng mô hình mạng thần kinh bên ngoài hệ thống mà trên đó mô hình đã được
xây dựng.
Bose và Mahapatra 6 cũng cung cấp một danh sách mở rộng những ứng dụng của lĩnh vực, kỹ
thuật, và loại vấn đề. Những nghiên cứu đã được xuất bản được tham khảo như nguồn. Các
loại vấn đề rơi vào 4 lĩnh vực chính:
Phân lớp: sử dụng tập dữ liệu phân tích để nhận diện các lớp hoặc các cụm mà sau đó
được sử dụng để phân loại dữ liệu. Các ứng dụng tiêu biểu bao gồm phân loại rủi ro và
lợi nhuận của việc đầu tư, và phân loại rủi ro tín dụng từ những người xin vay.
Dự đoán: nhận diện những thuộc tính cơ bản từ dữ liệu để xây dựng công thức nhằm
dự đoán những trường hợp tương lai, ví dụ như mô hình hồi qui
Liên kết: nhận diện các quy tắc giúp xác định mối quan hệ giữa các đối tượng, ví dụ
như phân tích rổ hàng mua, hoặc mối quan hệ giữa các triệu chứng với căn bệnh
Khám phá: xác định các điểm dị thường và bất thường, những điểm quan trọng trong
điều tra gian lận
Bảng 4.3 trích thông tin từ Bose và Mahapatra7 để minh họa cho các ứng dụng theo kỹ thuật
khai thác dữ liệu của họ.
Bảng 4.3 thể hiện phạm vi rộng lớn của các ứng dụng khai thác dữ liệu trong nhiều lĩnh vực
chức năng. Nhiều cái trong những ứng dụng này kết hợp với kỹ thuật trực quan hóa
(visualization) và phân tích thống kê. Điểm cơ bản là có nhiều công cụ khai thác dữ liệu sẵn
có cho nhiều loại mục tiêu chức năng trong hầu hết mọi lĩnh vực nỗ lực của con người (bao
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 51
Khai thác dữ liệu trong kinh doanh Chương 4
gồm cả kinh doanh). Phần này của cuốn sách nhắm tới việc minh họa cách các công cụ khai
thác dữ liệu cơ bản này làm việc như thế nào.
Bảng 4.3 Ứng dụng của khai thác dữ liệu theo phương pháp
Lĩnh vực Kỹ thuật Ứng dụng Loại vấn đề
Tài chính Mạng thần kinh Dự báo giá chứng khoán Dự báo
Mạng thần kinh Dự báo phá sản Dự báo
Quy nạp quy tắc Dự báo chỉ số giá cả Dự báo
Điều tra gian lận Điều tra
Mạng thần kinh Dự báo lãi suất ngân hàng Dự báo
Suy luận căn cứ trên các trường hợp
Mạng thần kinh Điều tra nợ ngân hàng trễ hạn Điều tra
Trực quan hóa
Quy nạp quy tắc Dự báo vỡ nợ Dự báo
Đánh giá tín dụng Dự báo
Quản lý danh mục đầu tư Dự báo
Phân loại rủi ro Phân loại
Phân loại khách hàng tài chính Phân loại
Quy nạp quy tắc Đánh giá trái phiếu công ty Dự báo
Suy luận căn cứ trên các trường hợp
Quy nạp quy tắc, Trực quan hóa Phê chuẩn cho vay Dự báo
Viễn Mạng thần kinh Dự báo hành vi mạng lưới (network) Dự báo
thông
Quy nạp quy tắc
Quy nạp quy tắc Quản lý bỏ dịch vụ Phân loại
Điều tra gian lận Điều tra
Suy luận căn cứ trên các trường hợp Theo dõi cuộc gọi Phân loại
Marketing Quy nạp quy tắc Phân khúc thị trường Phân loại
Cải tiến việc bán chéo (cross-selling) Liên kết
Quy nạp quy tắc Phân tích hành vi lối sống Phân loại
Trực quan hóa Phân tích kết quả tiêu thụ sản phẩm Liên kết
Quy nạp quy tắc Phản ứng của khách hàng đối với Dự báo
chiêu thị
Giải thuật gien (di truyền)
Trực quan hóa
Suy luận căn cứ trên các trường hợp Hỗ trợ bán hàng trực tuyến (online) Phân loại
Web Quy nạp quy tắc Phân tích sự tương tự của việc lướt Phân loại
web của người sử dụng (user
browsing similarity analysis)
Trực quan hóa Liên kết
Rút kinh nghiệm, tìm giải pháp căn cứ Sự tương tự nội dung giữa các trang Liên kết
trên quy tắc web (Web page content similarity)
Khác Mạng thần kinh Ước lượng chi phí phần mềm Điều tra
Mạng thần kinh Đánh giá tranh chấp Dự báo
Quy nạp quy tắc
Quy nạp quy tắc Điều tra gian lận bảo hiểm Điều tra
Báo cáo các ngoại lệ về chăm sóc Điều tra
sức khỏe
Suy luận căn cứ trên các trường hợp Ước lượng phí bồi thường bảo hiểm Dự báo
Kiểm soát chất lượng phần mềm Phân loại
Giải thuật gien (di truyền) Chi tiêu ngân sách Phân loại
Trong phần này này chúng ta sử dụng một vài mô hình đơn giản để minh họa cho các khái
niệm. Các bộ dữ liệu này được cung cấp bởi các tác giả và chúng phản ánh các ứng dụng kinh
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 52
Khai thác dữ liệu trong kinh doanh Chương 4
doanh quan trọng. Tập dữ liệu đầu tiên bao gồm những người xin vay với 20 quan sát cho
phần phân tích mô hình và 10 người xin vay cho tập dữ liệu kiểm tra. Tập dữ liệu thứ hai gồm
những người xin việc làm. Ở đây gồm 10 quan sát với kết quả đã biết làm thành tập dữ liệu
phân tích, và 5 trường hợp khác là dữ liệu kiểm tra. Tập dữ liệu thứ ba về việc đòi tiền bảo
hiểm với 10 quan sát đã biết cho phần khảo sát và 5 quan sát khác cho phần kiểm tra. Cả 3 bộ
dữ liệu này đều áp dụng được cho các trường hợp mới.
Các tập dữ liệu lớn ứng với từng tập dữ liệu này sẽ được cung cấp, cũng như một tập dữ liệu
lớn về chi tiêu. Các tập dữ liệu lớn này sẽ được sử dụng trong các chương khác nhau để minh
họa cho các phương pháp.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 53
Khai thác dữ liệu trong kinh doanh Chương 4
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 54
Khai thác dữ liệu trong kinh doanh Chương 4
Bảng 4.7 thể hiện 10 quan sát trong tập dữ liệu được dùng để nghiên cứu. Chú ý là một số
biến này là dạng định lượng và một số biến khác là định danh. Bang, bằng cấp và chuyên môn
là dữ liệu định danh. Không có nội dung thông tin cũng được coi là có nghĩa ở biến Bang và
biến chuyên môn. Biến Bang không có trật tự cụ thể trước khi phân tích, chuyên môn cũng
không. (Tuy nhiên phân tích có thể kết luận rằng có mối quan hệ giữa tình trạng, chuyên môn
và thu nhập). Bằng cấp là biến thứ bậc trong đó MS và MBA cao hơn BS. Tuy nhiên như với
Bang và chuyên môn, phân tích có thể tìm thấy một mối quan hệ giữa bằng cấp với thu nhập.
Bảng 4.8 trình bày dữ liệu kiểm tra cho tình huống này. Bảng 4.9 liệt kê những người xin việc
mới sẽ được phân loại dựa vào dự đoán kết quả công việc.
Bảng 4.7: Tập dữ liệu về những người xin việc sẽ dùng để phân tích mô hình
Hồ sơ Tuổi Bang Bằng cấp Chuyên môn Kinh nghiệm Kết quả đánh giá
1 27 CA BS Kĩ sư 2 năm Cao
2 33 NV MBA Quản trị kinh doanh 5 năm Trung bình
3 30 CA MS Khoa học máy tính 0 Trung bình
4 22 CA BS Hệ thống thông tin 0 Quá thấp
5 28 CA BS Hệ thống thông tin 2 năm Mức cơ bản
6 26 CA MS Quản trị kinh doanh 0 Cao
7 25 CA BS Kĩ sư 3 năm Trung bình
8 28 OR MS Khoa học máy tính 2 năm Trung bình
9 25 CA BS Hệ thống thông tin 2 năm Mức cơ bản
10 24 CA BS Hệ thống thông tin 1 năm Trung bình
Bảng 4.8: Tập dữ liệu về những người xin việc sẽ dùng để kiểm tra
Hồ sơ Tuổi Bang Bằng cấp Chuyên môn Kinh nghiệm Kết quả đánh giá
11 36 CA MS Hệ thống thông tin 0 Mức cơ bản
12 28 OR BS Khoa học máy tính 5 năm Quá thấp
13 24 NV BS Hệ thống thông tin 0 Cao
14 33 CA BS Kĩ sư 2 năm Trung binh
15 26 CA BS Quản trị kinh doanh 3 năm Mức cơ bản
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 55
Khai thác dữ liệu trong kinh doanh Chương 4
nạn thuộc diện được trả bảo hiểm trước đây, và luận sư đại diện (nếu có). Bảng 4.10 thể hiện
dữ liệu để phân tích. Dữ liệu kiểm tra ở Bảng 4.11. Các đòi hỏi bảo hiểm mới thể hiện ở Bảng
4.12.
Bảng 4.10 Tập dữ liệu về những đòi hỏi bảo hiểm để phân tích
Tuổi người Giới tính Số tiền đòi chi Số vé Số lần đòi bảo hiểm Luật sư Kết cục
đòi BH trả phạt trước đây
52 Nam 2000 0 1 Jonis Đạt yêu cầu
38 Nam 1800 0 0 Không có Đạt yêu cầu
21 Nữ 5600 1 2 Smith Gian lận
36 Nữ 3800 0 1 Không có Đạt yêu cầu
19 Nam 600 2 2 Adams Đạt yêu cầu
41 Nam 4200 1 2 Smith Gian lận
38 Nam 2700 0 0 Không có Đạt yêu cầu
33 Nữ 2500 0 1 Không có Gian lận
18 Nữ 1300 0 0 Không có Đạt yêu cầu
26 Nam 2600 2 0 Không có Đạt yêu cầu
Bảng 4.11 Tập dữ liệu về những đòi hỏi bảo hiểm để kiểm tra
Tuổi người Giới tính Số tiền Số vé Số lần đòi bảo hiểm Luật sư Kết cục
đòi BH đòi chi trả phạt trước đây
23 Nam 2800 1 0 Không có Đạt yêu cầu
31 Nữ 1400 0 0 Không có Đạt yêu cầu
28 Nam 4200 2 3 Smith Gian lận
19 Nam 2800 0 1 Không có Đạt yêu cầu
41 Nam 1600 0 0 Henry Đạt yêu cầu
Bảng 4.12 Tập dữ liệu về những đòi hỏi bảo hiểm mới
Tuổi người Giới tính Số tiền Số vé Số lần đòi bảo hiểm Luật sư
đòi BH đòi chi trả phạt trước đây
23 Nam 1800 1 1 Không có
32 Nữ 2100 0 0 Không có
20 Nữ 1600 0 0 Không có
18 Nữ 3300 2 0 Không có
55 Nam 4000 0 0 Smith
41 Nam 2600 1 1 Không có
38 Nữ 3100 0 0 Không có
21 Nam 2500 1 0 Không có
16 Nữ 4500 1 2 Gold
24 nam 2600 1 1 Không có
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 56
Khai thác dữ liệu trong kinh doanh Chương 4
Tập dữ liệu này có thể sử dụng cho một số nghiên cứu như:
Dạng khách hàng nào sẽ có nhiều khả năng ăn uống tại nhà hàng nhất?
Đâu là thị trường cho đồ nội thất?
Dạng khách hàng nào sẽ có khả năng ưa thích các mặt hàng sau nhất?
Quần áo
Giải trí
Mối quan hệ giữa chi tiêu và các biến nhân khẩu học?
Cuốn sách đi cùng với các phiên bản mở rộng của bộ dữ liệu sử dụng ở Chương 3 cũng như
toàn bộ 3 bộ dữ liệu được nói đến ở chương này, có thể sử dụng cho khai thác dữ liệu và được
hỗ trợ bởi phần mềm. Tất cả các bộ dữ liệu này có thể được sử dụng cho nhiều thuật toán (chứ
không phải một bộ dữ liệu chỉ áp dụng được 1 phương pháp).
PHỤ LỤC
MINH HỌA PHẦN MỀM ENTERPRISE MINER TRÊN BỘ DỮ LIỆU CHI TIÊU
Nội dung phần phụ lục này sẽ đưa ra một cái nhìn toàn cảnh về phần mềm khai thác dữ liệu.
Nó bao gồm nhiều chi tiết liên quan đến các phương pháp mà chúng ta sẽ nghiên cứu trong
các chương kế tiếp. Chương trình này được trình bày tại đây để chỉ cho chúng ta biết chúng ta
sẽ đi đến đâu.
Enterprise Miner được sản xuất bởi SAS là một trong những phần mềm khai thác dữ liệu
được sử dụng phổ biến nhất. Trong phần phụ lục này chúng ta minh họa cách sử dụng nó
trong quá trình khai thác dữ liệu.
Trong tập dữ liệu về chi tiêu đã mô tả trong nội dung chính của chương chúng ta quan tâm
đến câu hỏi “Dạng khách hàng nào sẽ có khả năng cần nhà hàng nhất?”
Trong ENTERPRISE MINER, đầu tiên chúng ta truy cập vào file BIGOUT mà có chứa bộ dữ
liệu về chi tiêu. Để trả lời câu hỏi chúng ta cần điều chỉnh dữ liệu theo quy tắc code của SAS.
Chúng ta tạo ra biến khác được gọi tên là Inc-ProRest với ý nghĩa thu nhập được đem nhân
với ProRest. Biến này sẽ là mục tiêu của chúng ta để trả lời câu hỏi nghiên cứu
(Income_ProRest = Inc-ProRest: Mục tiêu). Hình 4A.1 thể hiện lưu đồ điều khiển của
Enterprise Miner.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 57
Khai thác dữ liệu trong kinh doanh Chương 4
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 58
Khai thác dữ liệu trong kinh doanh Chương 4
Một khi dữ liệu được nhập vào chúng ta dùng lệnh phân chia dữ liệu để làm việc với dữ liệu.
Thao tác kế tiếp sẽ là chọn biến mục tiêu. Hình 4A.3 minh họa điều này với biến mục tiêu là
INC_PROREST là biến được biến đổi theo kiểu thu nhập nhân với tỷ lệ thu nhập dành cho ăn
nhà hàng.
Trong trường hợp này tỷ lệ của thu nhập chi cho nhà hàng được chọn. Người sử dụng sau đó
có thể áp dụng nhiều mô hình khai thác dữ liệu. Ở đây có 3 dạng mô hình sẵn có là hồi qui,
cây quyết định và mạng thần kinh.
Hình 4A.3 Màn hình Enterprise Miner để đặt biến mục tiêu
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 59
Khai thác dữ liệu trong kinh doanh Chương 4
Trong màn hình kế tiếp (Hình 4A.5) Enterprise Miner cho phép người sử dụng lựa chọn bao
nhiêu quan sát đưa vào phân tích, đánh giá, và kiểm tra, cũng như các thông số điều khiển
khác.
Trong trường hợp này 40% dữ liệu (4.000 quan sát) được chọn cho việc chạy thử, 30% dữ
liệu (3.000 quan sát) dành cho phân tích đánh giá mô hình và 30% dữ liệu (3.000 quan sát) để
kiểm tra mô hình. Các thông số khác cho phép chọn cách thức chọn các quan sát cụ thể vào
mỗi nhóm dữ liệu. Chúng ta mặc định chọn “Ngẫu nhiên đơn giản” để chọn ngẫu nhiên các
quan sát. Phương pháp chọn phân tầng sẽ được sử dụng nếu kỳ vọng có sự khác biệt có ý
nghĩa trong các phần khác nhau của tập dữ liệu. Hạt giống số ngẫu nhiên có thể được sử dụng
để đảm bảo rằng các lần chạy mô hình trong tương lai đạt được cùng cách phân công ngẫu
nhiên các quan sát. Đây là một cách có hiệu quả trong việc đảm bảo độ ổn định của mô hình
kết quả.
Hình 4A.6 thể hiện màn hình Enterprise Miner chạy thành công một mô hình. Nếu có lỗi
trong đầu vào chúng sẽ được thể hiện trong giai đoạn này.
Khi click nút Yes, Enterprise Miner sẽ cho bạn các kết quả hữu dụng ở dạng trực quan. Hình
4A.7 mô tả đồ thị của giá trị kiểm định T. Hình 4A.8 đưa lên đồ thị các kết quả dự đoán của
mô hình và các giá trị thực tế.
Biến phụ thuộc, InC_ProRest thực tế (trục X thể hiện tổng số tiền chi tiêu cho nhà hàng quan
sát được vẽ theo trục X, và các giá trị dự đoán mô hình theo trục Y. Ở đây rõ ràng có rất nhiều
điểm phù hợp, và có một vài lỗi. Hiển nhiên, sẽ khó mà dự đoán được tổng chi tiêu tại nhà
hàng cho các trường hợp có thu nhập cao. Giá trị T thực tế (việc sử dụng những số liệu này
được thể hiện trong hình 4A.7) được trình bày tại bảng 4A.1
Hình 4A.5 Màn hình điều khiển dữ liệu của Enterprise Miner
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 60
Khai thác dữ liệu trong kinh doanh Chương 4
Hình 4A.6 Màn hình thể hiện kết quả mô hình của Enterprise Miner
Hình 4A.7 Kết quả giá trị T của mô hình hồi qui trên Enterprise Miner
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 61
Khai thác dữ liệu trong kinh doanh Chương 4
Bảng 4A.1 Ước lượng mô hình hồi qui, giá trị T, và các mức ý nghĩa xác suất
Tham số Ước lượng Giá trị T Pr > |t|
Hệ số chặn (hằng số trong phương trình) -0.3110 -2.01 0.0444
Age (Tuổi) 0.0094 16.70 <0.0001
Churn -0.0021 -0.16 0.8767
Dep 0 (không có người phụ thuộc) 0.2617 2.90 0.0037
Dep 1 (số người phụ thuộc 1) 0.3037 4.02 <0.0001
Dep 2 (số người phụ thuộc 2) 0.3326 5.56 <0.0001
Dep 3 (số người phụ thuộc 3) 0.0956 1.80 0.0714
Dep 4 (số người phụ thuộc 4) 0.0368 0.56 0.5741
Dep 5 (số người phụ thuộc 5) -0.2321 -2.34 0.0191
Dep 6 (số người phụ thuộc 6 -0.2731 -1.75 0.0800
Gender (Giới tính) -0.0066 -0.81 0.4201
Tình trạng hôn nhân 0 (độc thân) 0.3376 20.84 <0.0001
Tình trạng hôn nhân 0.5 (ly dị) -0.1654 -11.57 <0.0001
ProAuto (tỷ lệ thu nhập chi cho xe hơi) -0.7741 -1.90 0.0572
ProCloth (tỷ lệ thu nhập chi cho quần áo) 0.5099 1.86 0.0623
ProEnt (tỷ lệ thu nhập chi cho giải trí) -10.8093 -25.99 <0.0001
ProGroc (tỷ lệ thu nhập chi cho hàng thực phẩm) 1.1478 3.16 0.0016
ProHous (tỷ lệ thu nhập chi cho nhà ở) -0.6405 -1.95 0.0517
ProRest (tỷ lệ thu nhập chi cho ăn nhà hàng) 26.9854 68.74 <0.0001
ProUtil (tỷ lệ thu nhập chi cho vật dụng) -1.8023 -4.35 <0.0001
Ibncome (Thu nhập) -0.0021 -1.41 0.1584
Job Years (Số năm kinh nghiệm) -0.0012 -0.66 0.5115
Town Years (Sô năm sống tại thành phố) 0.0002 0.24 0.8119
Years Education (Số năm đi học) -0.00144 -0.35 0.7233
Drivers License (Bằng lái) -0.0268 -1.36 0.1734
Own home (Sở hữu nhà) -0.220 -1.14 0.2538
Number Credit Cards (Số lượng thẻ tín dụng) -0.0016 -0.59 0.5546
ProHousing (tỷ lệ chi tiêu trên thu nhập cho nhà ở) 0.0263 2.49 0.0129
Inc_ProCloth (thu nhập * tỷ lệ thu nhập chi cho quần áo) 0.0107 1.15 0.2488
Inc+ProEnt (Thu nhập * tỷ lệ thu nhập chi cho giải trí) 0.2873 16.97 <0.0001
Cần chú ý mức độ dễ dàng hơn khi diễn dịch hình 4A.7 so với bảng 4A.1. Tuy nhiên nhiệm
vụ chi tiết đòi hỏi thông tin chi tiết như mức độ cho trong bảng. Đặc trưng của mô hình hồi
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 62
Khai thác dữ liệu trong kinh doanh Chương 4
qui là có một số lỗi. Hình 4A.8 cho thấy tại mức thu nhập thấp mô hình cho ra một vài chi
tiêu âm tại nhà hàng. Dĩ nhiên điều này là không thể xảy ra. Có nhiều khi mô hình hồi qui bị
buộc phải đảm nhận những loại giá trị cụ thể (ở đây giá trị lớn hơn hay bằng 0 là có thể phù
hợp, dù vậy mô hình vẫn cung cấp các kết quả hữu ích). Enterprise Miner cung cấp cả kết quả
phân tích phương sai và phân tích các kết quả ảnh hưởng (không trình bày ở đây.). Thông tin
về độ phù hợp của mô hình cũng được cung cấp. Trong trường hợp này R2 = 0,8031, khá tốt,
mặc dù với số biến được cung cấp nó vẫn tỏ ra chưa ấn tượng lắm. Giá trị R 2 điều chỉnh bằng
0,8016 chỉ ra rằng các biến thêm vào không gây ra thiên lệch nhiều ngoài mong đợi.
Mô hình hồi qui (các tham số ước lượng trong Bảng 4A.1) có thể áp dụng trong Enterprise
Miner cho các quan sát mới (mà các quan sát này) được mô tả bởi các giá trị biến của nó. Các
tham số ước lượng lần lượt được đưa vào một bảng tính hoặc một hệ thống khác để áp dụng
mô hình ở bên ngoài chương trình này cũng được.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 63
Khai thác dữ liệu trong kinh doanh Chương 4
Hình 4A.10 Kết quả phân tách cây quyết định trên Enterprise Miner
Kết quả này cũng cung cấp số thống kê về độ phù hợp của mô hình. Sai số bình phương trung
bình là thể hiện rõ nhất. Như mong đợi, dữ liệu phân tích có độ phù hợp tốt nhất. ở đây độ
phù hợp kiểm tra được so sánh với cái tương ứng trên mô hình cây quyết định, với sai số bình
phương trung bình 0,0701 so với con số của mô hình cây quyết định là 0,0701. Mạng thần
kinh cung cấp một mô hình tương đối phức tạp.
Hình 4A.11 Kết quả mô hình mạng thần kinh cho dữ liệu chi tiêu trên Enterprise Miner
Hình 4A.12 cho thấy kết quả chạy mô hình mạng thần kinh trên Enterprise Miner, cung cấp
trọng số trên mỗi vòng cung được thể hiện ra. Ở đây các trọng số của biến đầu vào cho các
nốt ẩn H11 và H12 được trình bày. Nhưng còn có nhiều vòng cung khác trong mô hình đầy
đủ. Đó là lý do tại sao mô hình mạng thần kinh khó chuyển ra ngoài hệ thống phần mềm mà
chúng được xây dựng.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 64
Khai thác dữ liệu trong kinh doanh Chương 4
Hình 4A.12 Thành phần của mô hình mạng thần kinh trên Enterprise Miner cho dữ liệu chi tiêu
Hình 4A.13 thể hiện tiến trình mô hình mạng thần kinh theo bối cảnh giảm dần đi sai số trung
bình của tập dữ liệu phân tích và đánh giá bởi số mối tương tác
Hình 4A.13 Tiến trình mô hình mạng thần kinh trên Enterprise Miner cho dữ liệu chi tiêu
TÓM TẮT
Nhiều công cụ sẵn có cho khai thác dữ liệu và có thể đạt tới nhiều hàm số. Các công cụ này
xuất phát từ thống kê, nghiên cứu thực hiện và trí tuệ nhân tạo, và nó cung cấp những kĩ thuật
hữu dụng để đạt được các hàm phân tích đa dạng như phân tích cụm, phân tích biệt số và phát
triển các quy tắc liên kết. Phần mền khai thác dữ liệu cho ta các phương tiện hữu ích để áp
dụng các công cụ này với những bộ dữ liệu số lớn, đem lại cho công tác quản lý tổ chức
những phương tiện giúp mô phỏng các dữ liệu nhiều đến mức thừa mứa trong tổ chức và
chuyển hóa một số trong chúng thành kiến thức hữu ích.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 65
Khai thác dữ liệu trong kinh doanh Chương 4
Chương này bắt đầu với một cái nhìn tổng quát về công cụ và hàm số, nó cũng mô tả 4 tập dữ
liệu mà được sử dụng trong các chương kế tiếp. Các bộ dữ liệu này tuy nhỏ nhưng cung cấp
cho người đọc hình dung về loại dữ liệu tiêu biểu sẽ gặp trong các nghiên cứu về khai thác dữ
liệu.
Phần phụ lục của chương này giới thiệu nhanh về các công cụ trên phần mềm ENTERPRISE
MINER, một phần mềm khai thác dữ liệu hàng đầu. Dữ liệu căn bản được thể hiện và các mô
hình phân tích được minh họa với các mô hình kết quả.
Bài Tập
1. Nguồn nào phát ra các tập dữ liệu lớn (large-scale data) cho một hãng ?
2. Đâu là khác biệt giữa phương pháp khai thác dữ liệu căn cứ trên thống kê và phương
pháp khai thác dữ liệu căn cứ trên trí tuệ nhân tạo?
3. Mô tả khác biệt giữa phân lớp và dự đoán?
4. Trong tập tin những người xin vay nợ, kỳ vọng ban đầu của bạn (tức là của việc phân
tích khai thác dữ liệu) về đặc tính của các khoản nợ sẽ không được trả đúng hạn là gì?
5. Không có thêm thông tin nào khác về những người xin vay nợ ngoài Bảng 4.6, với
phân khúc nào bạn đồng ý cho vay nợ?
6. Trong tập tin những người xin việc, kỳ vọng ban đầu của bạn (tức là của việc phân
tích khai thác dữ liệu) về các đặc điểm (trong tập dữ liệu) cho đánh giá kết quả làm
việc xuất sắc và không chấp nhận được là gì?
7. Với tập tin những người xin việc, bạn sẽ thuê một người với những đặc điểm gì? Nếu
bạn có thể thuê số lượng người bất kỳ, những người nào bạn sẽ thuê?
8. Trong tập tin các yêu cầu bảo hiểm, kỳ vọng ban đầu của bạn (tức là của việc phân
tích khai thác dữ liệu) về các đặc điểm (trong tập dữ liệu) của những yêu cầu gian lận
là gì?
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 66
Khai thác dữ liệu trong kinh doanh Chương 4
9. Với những yêu cầu bảo hiểm được trình bày trong bảng 4.12, những trường hợp nào
bạn sẵn lòng chi 2000đô để điều tra? những trường hợp nào bạn sẵn lòng chi 20000đô
để điều tra?
10. Trong tập tin chi tiêu, kỳ vọng ban đầu của bạn (tức là của việc phân tích khai thác dữ
liệu) về đặc tính của những người sẽ chi trên 5.000 đô mỗi năm cho ăn nhà hàng là gì?
11. Trong tập tin chi tiêu. Dạng người nào bạn kỳ vọng sẽ chi tiêu một tỷ lệ đáng kể trong
thu nhập cho đồ lặt vặt?
12. Trong tập tin chi tiêu. Dạng người nào bạn kỳ vọng sẽ chi tiêu một tỷ lệ đáng kể trong
thu nhập cho quần áo?
13. Trong tập tin chi tiêu. Dạng người nào bạn kỳ vọng sẽ chi tiêu một tỷ lệ đáng kể trong
thu nhập cho giải trí?
14. Trong tập tin chi tiêu. Dạng người nào bạn kỳ vọng sẽ chi tiêu một tỷ lệ đáng kể trong
thu nhập cho việc sở hữu và vận hàng ô tô?
15. Trong tập tin chi tiêu. Dạng người nào bạn kỳ vọng có tài khoản thẻ tín dụng bị hủy
bỏ?
Kết chú
1
M.Y. Kiang and A.Kumar, “An Evaluation of Self- Organizing Map Networks as a Robust
Alternative to Factor Analysis in Data mining Application, ” Information systems Research,
volume 12, number 2, 2001, pp. 177-194
2
A. Radding, “Unpacking the Mystery of the Black Box,” Software Magazine, Data Mining
Prime Supplement, December 1997, pp. S8-S9
3
P.R.Peacock, “Data mining in Marketing:Part I, “Marketing Management, 6:4, Winter 1998,
pp. 8-19.
4
M.J.A Berry and G.Linoff, Data mining techniques, New York: John Wiley & Sons, 1997
5
I. Bose and R.K.Mahapatra, “Bussiness Data mining-A A Machine Learning Perspective,”
Information & Management, volume 39, 2001, pp. 211-225.
6
Ibid
7
Ibid
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 67