DataMining - Chuong 4

Khai thác dữ liệu trong kinh doanh Chương 4
CHƯƠNG 4
TỔNG QUAN VỀ CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
Nội dung chương này:

 Điểm qua các công cụ khai thác dữ liệu
 So sánh các phương pháp khai thác dữ liệu
 Thảo luận về các chức năng khai thác dữ liệu
 Trình bày bốn bộ dữ liệu được sử dụng minh họa cho các công cụ trong các
chương kế tiếp
 Trình bày về phần mềm Enterprise Miner dùng cho việc phân tích khai thác dữ
liệu (ở phần phụ lục)
Dữ liệu hữu ích cho kinh doanh có dưới nhiều hình thức khác nhau. Ví dụ như, một công ty
bảo hiểm xe ô tô đang đối mặt với hàng triệu yêu cầu đòi bồi thường, nhận ra rằng không phải
tất cả các yêu cầu đó đều chính đáng (xác thực). Nếu họ quyết định làm thật chặt chẽ và điều
tra tất cả các yêu cầu bồi thường một cách cặn kẽ thì khoản chi phí tiêu tốn cho việc điều tra
sẽ cao hơn cả chi phí trả cho việc bồi thường bảo hiểm. Họ cũng phát hiện ra là họ sẽ không
thể bán được bất cứ một hợp đồng bảo hiểm mới nào (nếu họ làm chặt chẽ như vậy). Nếu họ
luôn luôn “tin tưởng và thấu hiểu” như những lời họ vẫn quảng cáo trên ti vi thì họ nên giảm
chi phí điều tra xuống còn zero, và chấp nhận chịu thiệt vì những đòi hỏi bồi thường không
trung thực. Các hãng bảo hiểm đã tìm cách lập hồ sơ theo dõi (profile) các yêu cầu bồi
thường, xem xét nhiều biến liên quan đến tiến trình này, và nhờ đó đã phát hiện ra những dấu
hiệu chỉ báo sớm của các trường hợp đáng để đầu tư chi phí điều tra (vì có dấu hiệu gian lận).
Việc làm này đã có tác động giúp giảm toàn bộ chi phí của hợp đồng vì nó làm nản lòng
những người gian lận và hạn chế được những khoản tiền đòi hỏi bồi thường thái quá (tức là
nó giúp công ty giảm được các chi phí bồi thường thiệt hại nhờ đó giảm tổng chi phí nên chi
phí trên mỗi đơn vị hợp đồng cũng giảm theo). Cách làm này cũng được Cơ quan thuế áp
dụng trong tiến trình xử lý hoàn trả thuế thu nhập cá nhân đã nộp. Khai thác dữ liệu để phát
hiện gian lận đã phát triển thành một ngành công nghiệp tồn tại độc lập với rất nhiều nhà cung
cấp phần mềm. Đây là một trong nhiều ứng dụng tiêu biểu của khai thác dữ liệu.
Khai thác dữ liệu có thể được tiến hành trong nhiều bối cảnh kinh doanh. Chương này trình
bày 4 bộ dữ liệu sẽ được sử dụng để minh họa cho các kỹ thuật được giới thiệu trong Phần II
(Chương 4 đến Chương 9). Bên cạnh ví dụ về lừa đảo trong bảo hiểm, các file dữ liệu được
xây dựng để phản ánh các ứng dụng khác trong kinh doanh như thẩm định tín dụng và phân
khúc khách hàng. Khái niệm tương tự có thể áp dụng cho các ứng dụng khác, chẳng hạn như
đánh giá nhân viên.
Cho tới bây giờ chúng ta đã mô tả khai thác dữ liệu, tiến trình của nó và hệ thống lưu trữ dữ
liệu giúp cho tiến trình khai thác dữ liệu tiến hành được. Phần kế tiếp của cuốn sách khảo sát
các phương pháp khai thác dữ liệu. Các công cụ khai thác dữ liệu được chia thành Phân loại,
Ước lượng, Phân cụm/lập nhóm, và Tổng hợp. Phân loại và ước lượng là dự đoán trong khi
Phân cụm và tổng hợp là mô tả 1. Không phải tất cả các phương pháp khai thác dữ liệu đều
được trình bày hết ở đây, nhưng đây là những phương pháp phổ biến nhất. Chúng tôi sẽ minh
họa các phương pháp này với những bộ dữ liệu ví dụ nhỏ nhằm mô tả phương pháp được tiến
hành như thế nào. Chúng tôi không có ý nhấn mạnh dữ liệu này có quy mô gần với quy mô
thực của dữ liệu của những ứng dụng khai thác dữ liệu trong kinh doanh thực tế. Mà chúng
chỉ là một phiên bản nhỏ của tình huống thật và như vậy thuận lợi hơn hẳn cho việc minh họa
các khái niệm (vì nhỏ nên dễ theo dõi, hình dung).
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 48
Chương này nhắm vào việc bao quát các nội dung kế tiếp của sách, trình bày nhiều kỹ thuật
mô hình hóa. Trong chương này chúng tôi mô tả bao quát các kỹ thuật này. Sau đó chúng tôi
trình bày 4 tập dữ liệu sẽ được sử dụng thông qua các mô hình để minh họa phương pháp trên
các bộ dữ liệu đại diện. Những bộ dữ liệu này được giả lập để phản ảnh các ứng dụng khai
thác dữ liệu thông dụng. Cũng như các bộ dữ liệu thật, chúng bao gồm các thông tin mà có thể
sử dụng tốt hoặc không tốt. Tại phần phụ lục của chương này mô tả ngắn gọn về phần mềm
khai thác dữ liệu Enterprise Miner. Phần phụ lục này trình bày một số khả năng của phần
mềm trong việc cung cấp các công cụ trực quan.
CÁC MÔ HÌNH KHAI THÁC DỮ LIỆU
Khai thác dữ liệu sử dụng nhiều công cụ mô hình hóa phục vụ cho nhiều mục tiêu khác nhau.
Nhiều tác giả đã trình bày các mục tiêu này cùng với các công cụ sẵn có (xem Bảng 4.1).
Radding (1997) đã đưa ra 7 thuật toán chính cho việc khai thác dữ liệu dữ liệu định hướng thị
trường 2. Peacock (1998) đưa ra các hàm khai thác dữ liệu 3. Những phương pháp này xuất
phát từ cả thống kê kinh điển lẫn trí tuệ nhân tạo 1. Kỹ thuật thống kê có công cụ chuẩn đoán
rất mạnh giúp xây dựng khoảng tin cậy cho ước lượng tham số, kiểm định giả thuyết và
những thứ khác. Kỹ thuật Trí tuệ nhân tạo yêu cầu ít giả định hơn về dữ liệu và nói chung là
tự động nhiều hơn.
Kỹ thuật hồi qui bao gồm nhiều thể loại, ví dụ như Hồi qui bình phương bé nhất, hồi qui
logistic (sử dụng khi biến kết quả là nhị phân), và phân tích biệt số (sử dụng khi biến phụ
thuộc dạng phân loại và được xác định trước). Hồi qui trị tuyệt đối bé nhất được sử dụng phổ
biến thông qua quy hoạch tuyến tính. Chúng ta nghiên cứu cả quy hoạch tuyến tính đa điều
kiện trong chương 9. Mạng thần kinh cũng sử dụng tốt cho các nhiệm vụ đa dạng. Quy tắc kết
hợp được sử dụng trong kỹ thuật phân lớp, cũng như kĩ thuật mô tả được sử dụng trong phân
tích rổ hàng mua. Thuật toán gien (thuật toán di truyền) là một công cụ đặc biệt có thể sử
dụng để gia tăng hiệu quả của một số thuật toán khác. Phân tích liên kết là một dạng nhận
diện mối quan hệ đặc biệt hữu dụng trong khám phá gian lận hoặc khám phá những vấn đề
khác. Cuối cùng, có nhiều cách để trong đó các công cụ truy vấn (chẳng hạn OLAP đã nhắc
đến trong chương 3), thống kê mô tả và trực quan hóa (vẽ sơ đồ dữ liệu và thiết lập các mối
quan hệ) hỗ trợ việc phân tích khai thác dữ liệu.
Bảng 4.1: Các công cụ khai thác dữ liệu
Thuật toán của Radding Hàm của Peacock Nền tảng Nhiệm vụ Trình bày tại
Khám phá cụm Phân tích cụm Thống kê Phân loại Chương 5
Mô hình hồi qui Thống kê Ước lượng Chương 6
Hồi qui logistic Thống kê Phân loại Chương 6
Phân tích biệt số Thống kê Phân loại Chương 6
Mạng –thần kinh Trí tuệ nhân tạo Phân loại Chương 7
Mạng –thần kinh
Mạng Kohonen Trí tuệ nhân tạo Cụm Chương 7
Cây quyết định Quy tắc liên kết Trí tuệ nhân tạo Phân loại Chương 8
Quy nạp quy tắc Quy tắc liên kết Trí tuệ nhân tạo Mô tả Chương 8
Phân tích liên kết Mô tả Chương 10
Công cụ truy vấn Mô tả
Thống kê mô tả Thống kê Mô tả
Công cụ trực quan hóa Thống kê Mô tả
Điểm mấu chốt của khai thác dữ liệu là có nhiều công cụ sẵn có để hỗ trợ các nhà phân tích và
người sử dụng hiểu rõ dữ liệu của họ chứa đựng cái gì. Mỗi phương pháp có cái riêng, và mỗi
1
Bản chất của TTNT là làm sao đưa được tri thức con người vào máy dưới những dạng máy hiểu được, và cung cấp cho máy khả năng suy
diễn để khai thác các tri thức này. Cốt lõi của TTNT có thể diễn giải bởi công thức TTNT = Tri thức + Suy diễn
vấn đề cụ thể sẽ được xử lý tốt nhất bằng một phương pháp cụ thể nào đó. Tuy nhiên một số
phương pháp khác nhau cũng có thể dùng để giải quyết một vấn đề. Hầu hết các phương pháp
có liên quan đến việc xác lập các tham số, các tham số này trở nên quan trọng khi xét đến hiệu
lực của phương pháp . Hơn nữa, các kết quả cần phải được giải thích.
Có một số trùng lắp. Phân tích cụm giúp các người khai thác dữ liệu hình dung mối liên hệ
giữa các khách mua hàng, và khi được hỗ trợ bởi công cụ trực quan hóa mang lại một góc
nhìn khác. Phân tích liên kết giúp nhận diện những kết nối giữa các biến thường được trình
bày trực quan thông qua sơ đồ. Một ví dụ về ứng dụng của Phân tích liên kết có thể thấy trong
ngành điện thoại trong đó các cuộc gọi được thể hiện như liên kết giữa người gọi và người
nghe 4. Một ví dụ khác về liên kết là kiểu mẫu tham khảo bác sĩ điều trị. Bệnh nhân có thể đến
gặp bác sĩ quen của họ, bác sĩ này phát hiện ra những điều họ không biết nhiều. Họ xem xét
mạng các mối quan hệ để tìm ra một chuyên gia đáng tin cậy để tham khảo ý kiến. Các phòng
khám là tập hợp các chuyên gia điều trị, có thể được tham khảo trong những trường hợp khó
khăn đặc biệt.
BỐI CẢNH KHAI THÁC DỮ LIỆU
Các phương pháp có thể được xem xét từ nhiều góc độ khác nhau. Từ góc độ của thống kê và
nghiên cứu hoạt động, các phương pháp khai thác dữ liệu bao gồm 5:
 Phân tích cụm (Chương 5)
 Hồi qui với nhiều dạng (những phương pháp phù hợp nhất, Chương 6)
 Phân tích biệt số (dùng hồi qui để phân biệt, Chương 6)
 Đường phù hợp thông qua công cụ nghiên cứu quá trình của phương trình tuyến tính
đa mục tiêu (Chương 9)
Từ góc độ của trí tuệ nhân tạo, các phương pháp khai thác dữ liệu bao gồm
 Mạng thần kinh (những phương pháp phù hợp nhất, Chương 7)
 Quy nạp quy tắc (cây quyết định, Chương 8)
 Thuật toán gien/di truyền (thường hỗ trợ những phương pháp khác)
Trong cuốn sách này chúng tôi kết hợp cách tiếp cận hồi qui và mạng thần kinh như những
phương pháp phù hợp nhất vì chúng thường được áp dụng cùng với nhau. Hồi qui có khuynh
hướng thuận lợi với dữ liệu tuyến tính trong khi mô hình mạng thần kinh lại rất phù hợp với
những dữ liệu bất quy tắc. Phần mềm cho phép người dùng áp dụng những biến thể của mỗi
phương pháp và cho phép nhà phân tích chọn mô hình phù hợp nhất. Phân tích cụm, phân tích
biệt số và suy luận căn cứ trên các trường hợp nhắm đến việc phân chia các trường hợp mới
vào các cụm gần nhất của các quan sát quá khứ. Quy nạp quy tắc là cơ sở của phương pháp
cây quyết định của khai thác dữ liệu. Giải thuật gien áp dụng cho các dạng đặc biệt của dữ
liệu, và thường được dùng để tăng cường hoặc phát triển tiến trình xử lý của các kỹ thuật
khác.
Khả năng của một số kĩ thuật kể trên để xử lý những vấn đề khai thác dữ liệu chung được so
sánh trong Bảng 4.2. Bảng này cho thấy có nhiều công cụ khác nhau cho nhiều loại vấn đề
khác nhau. Nếu dữ liệu đặc biệt bị nhiễu sẽ khó khăn khi áp dụng các kỹ thuật thống kê cổ
điển như hồi qui, phân tích cụm, phân tích biệt số. Các phương pháp sử dụng quy nạp quy tắc
và suy luận căn cứ trên các trường hợp có thể giải quyết nhiều vấn đề, nhưng nếu dữ liệu
nhiễu là những thông tin sai nó có thể dẫn đến các quy tắc bao gồm những điều sai. Mạng
thần kinh và Giải thuật gien đã được chứng minh là khá hữu dụng so với những phương pháp
cổ điển trong môi trường dữ liệu rất phức tạp, trong đó có tương tác không tuyến tính giữa các
biến.
Bảng 4.2 Khả năng chung của các công cụ khai thác dữ liệu xử lý các đặc trưng dữ liệu
Đặc tính dữ liệu Quy nạp Mạng thần kinh Suy luận căn cứ Giải thuật gien
quy tắc trên các trường hợp
Dữ liệu nhiễu nắm được Tốt Rất Tốt Tốt Rất Tốt
Dữ liệu khuyết nắm được Tốt Tốt Rất Tốt Tốt
Xử lý tập dữ liệu lớn Rất Tốt Kém Tốt Tốt
Chuyển đổi Cần thực hiện
Xử lý loại dữ liệu khác Tốt Rất Tốt
thành số chuyển đổi
Dự đoán chính xác Cao Rất Cao Cao Cao
Khả năng giải thích Rất Tốt Kém Rất Tốt Tốt
Dễ kết hợp Tốt Tốt Tốt Rất Tốt
Dễ thao tác Dễ Khó Dễ Khó
Nguồn: trích từ Bose and Mahapatra (2001)
Mạng thần kinh có một bất lợi tương đối khi làm việc với nhiều biến vì sự phức tạp về tính toán
gia tăng nhanh chóng. Giải thuật gien đòi hỏi một cấu trúc dữ liệu cụ thể để có thể thao tác
được, không phải luôn dễ dàng chuyển hóa dữ liệu để đạt được yêu cầu này.
Mặt tiêu cực khác của mạng thần kinh là bản chất bị che khuất của nó, vì có rất nhiều điểm
kết nối nên in ra giấy và phân tích một mô hình mạng thần kinh lớn là không thực tế. Nó gây
khó khăn cho việc chạy một mô hình mà được xây dựng trên hệ thống này và sau đó chuyển
hóa sang một hệ thống khác. Vì thế dữ liệu mới phải được nhập vào hệ thống đã dùng xây
dựng mô hình mạng thần kinh để áp dụng cho các trường hợp mới. Điều này làm cho hầu như
không thể áp dụng mô hình mạng thần kinh bên ngoài hệ thống mà trên đó mô hình đã được
xây dựng.
CÁC CHỨC NĂNG KHAI THÁC DỮ LIỆU
Bose và Mahapatra 6 cũng cung cấp một danh sách mở rộng những ứng dụng của lĩnh vực, kỹ
thuật, và loại vấn đề. Những nghiên cứu đã được xuất bản được tham khảo như nguồn. Các
loại vấn đề rơi vào 4 lĩnh vực chính:
 Phân lớp: sử dụng tập dữ liệu phân tích để nhận diện các lớp hoặc các cụm mà sau đó
được sử dụng để phân loại dữ liệu. Các ứng dụng tiêu biểu bao gồm phân loại rủi ro và
lợi nhuận của việc đầu tư, và phân loại rủi ro tín dụng từ những người xin vay.
 Dự đoán: nhận diện những thuộc tính cơ bản từ dữ liệu để xây dựng công thức nhằm
dự đoán những trường hợp tương lai, ví dụ như mô hình hồi qui
 Liên kết: nhận diện các quy tắc giúp xác định mối quan hệ giữa các đối tượng, ví dụ
như phân tích rổ hàng mua, hoặc mối quan hệ giữa các triệu chứng với căn bệnh
 Khám phá: xác định các điểm dị thường và bất thường, những điểm quan trọng trong
điều tra gian lận
Bảng 4.3 trích thông tin từ Bose và Mahapatra7 để minh họa cho các ứng dụng theo kỹ thuật
khai thác dữ liệu của họ.
Bảng 4.3 thể hiện phạm vi rộng lớn của các ứng dụng khai thác dữ liệu trong nhiều lĩnh vực
chức năng. Nhiều cái trong những ứng dụng này kết hợp với kỹ thuật trực quan hóa
(visualization) và phân tích thống kê. Điểm cơ bản là có nhiều công cụ khai thác dữ liệu sẵn
có cho nhiều loại mục tiêu chức năng trong hầu hết mọi lĩnh vực nỗ lực của con người (bao
gồm cả kinh doanh). Phần này của cuốn sách nhắm tới việc minh họa cách các công cụ khai
thác dữ liệu cơ bản này làm việc như thế nào.
Bảng 4.3 Ứng dụng của khai thác dữ liệu theo phương pháp
Lĩnh vực Kỹ thuật Ứng dụng Loại vấn đề
Tài chính Mạng thần kinh Dự báo giá chứng khoán Dự báo
Mạng thần kinh Dự báo phá sản Dự báo
Quy nạp quy tắc Dự báo chỉ số giá cả Dự báo
Điều tra gian lận Điều tra
Mạng thần kinh Dự báo lãi suất ngân hàng Dự báo
Suy luận căn cứ trên các trường hợp
Mạng thần kinh Điều tra nợ ngân hàng trễ hạn Điều tra
Trực quan hóa
Quy nạp quy tắc Dự báo vỡ nợ Dự báo
Đánh giá tín dụng Dự báo
Quản lý danh mục đầu tư Dự báo
Phân loại rủi ro Phân loại
Phân loại khách hàng tài chính Phân loại
Quy nạp quy tắc Đánh giá trái phiếu công ty Dự báo
Suy luận căn cứ trên các trường hợp
Quy nạp quy tắc, Trực quan hóa Phê chuẩn cho vay Dự báo
Viễn Mạng thần kinh Dự báo hành vi mạng lưới (network) Dự báo
thông
Quy nạp quy tắc
Quy nạp quy tắc Quản lý bỏ dịch vụ Phân loại
Điều tra gian lận Điều tra
Suy luận căn cứ trên các trường hợp Theo dõi cuộc gọi Phân loại
Marketing Quy nạp quy tắc Phân khúc thị trường Phân loại
Cải tiến việc bán chéo (cross-selling) Liên kết
Quy nạp quy tắc Phân tích hành vi lối sống Phân loại
Trực quan hóa Phân tích kết quả tiêu thụ sản phẩm Liên kết
Quy nạp quy tắc Phản ứng của khách hàng đối với Dự báo
chiêu thị
Giải thuật gien (di truyền)
Trực quan hóa
Suy luận căn cứ trên các trường hợp Hỗ trợ bán hàng trực tuyến (online) Phân loại
Web Quy nạp quy tắc Phân tích sự tương tự của việc lướt Phân loại
web của người sử dụng (user
browsing similarity analysis)
Trực quan hóa Liên kết
Rút kinh nghiệm, tìm giải pháp căn cứ Sự tương tự nội dung giữa các trang Liên kết
trên quy tắc web (Web page content similarity)
Khác Mạng thần kinh Ước lượng chi phí phần mềm Điều tra
Mạng thần kinh Đánh giá tranh chấp Dự báo
Quy nạp quy tắc
Quy nạp quy tắc Điều tra gian lận bảo hiểm Điều tra
Báo cáo các ngoại lệ về chăm sóc Điều tra
sức khỏe
Suy luận căn cứ trên các trường hợp Ước lượng phí bồi thường bảo hiểm Dự báo
Kiểm soát chất lượng phần mềm Phân loại
Giải thuật gien (di truyền) Chi tiêu ngân sách Phân loại
CÁC TẬP DỮ LIỆU MINH HỌA
Trong phần này này chúng ta sử dụng một vài mô hình đơn giản để minh họa cho các khái
niệm. Các bộ dữ liệu này được cung cấp bởi các tác giả và chúng phản ánh các ứng dụng kinh
doanh quan trọng. Tập dữ liệu đầu tiên bao gồm những người xin vay với 20 quan sát cho
phần phân tích mô hình và 10 người xin vay cho tập dữ liệu kiểm tra. Tập dữ liệu thứ hai gồm
những người xin việc làm. Ở đây gồm 10 quan sát với kết quả đã biết làm thành tập dữ liệu
phân tích, và 5 trường hợp khác là dữ liệu kiểm tra. Tập dữ liệu thứ ba về việc đòi tiền bảo
hiểm với 10 quan sát đã biết cho phần khảo sát và 5 quan sát khác cho phần kiểm tra. Cả 3 bộ
dữ liệu này đều áp dụng được cho các trường hợp mới.
Các tập dữ liệu lớn ứng với từng tập dữ liệu này sẽ được cung cấp, cũng như một tập dữ liệu
lớn về chi tiêu. Các tập dữ liệu lớn này sẽ được sử dụng trong các chương khác nhau để minh
họa cho các phương pháp.
Dữ liệu về xin vay

Bộ dữ liệu này (được trình bày trong Bảng 4.4) chứa thông tin về những người xin vay tiền.
Dữ liệu đầy đủ bao gồm 650 quan sát quá khứ. Thông tin về người vay như tuổi, thu nhập, tài
sản, nợ và đánh giá tín dụng (theo phòng tín dụng, quy tắc là màu đỏ nếu tín dụng xấu, màu
vàng nếu có vấn đề về tín dụng và màu xanh lá nếu hồ sơ tín dụng lành mạnh) được giả định
là sẵn có từ các đơn xin vay nợ. Biến Yêu cầu (Want) là lượng tiền vay trong đơn xin vay.
Với những quan sát quá khứ, biến Đúng hạn (On-time) nhận giá trị 1 nếu tất cả các khoản nợ
được trả đúng hạn và là 0 nếu ngược lại (trả trễ hoặc nợ xấu – Late or Default). Đa số các
khoản nợ được trả đúng hạn. Dữ liệu được chuyển hóa thành dữ liệu dạng phân loại để dùng
cho một số kỹ thuật phân tích. Tuổi được nhóm thành: Dưới 30 là trẻ, 60 trở lên là lớn tuổi và
các giá trị ở giữa là trung niên. Thu nhập được nhóm thành: nhỏ hơn hoặc bằng 30,000$/năm
là thu nhập thấp, từ 80,000$/năm trở lên là cao, và ở giữa là trung bình. Tài sản, nợ và số tiền
vay (Biến Yêu cầu - Want) được sử dụng để tạo ra biến Rủi ro dạng phân loại. Rủi ro được
đặt là cao nếu nợ vượt quá tài sản, là thấp nếu tài sản cao hơn tổng nợ cộng với tổng yêu cầu
vay, và được đánh giá là trung bình nếu ở giữa mức này. Còn Bảng 4.5 cung cấp tập dữ liệu
dùng cho kiểm tra. Mô hình có thể áp dụng cho những người xin vay mới như thể hiện trong
Bảng 4.6.
Bảng 4.4: Tập dữ liệu về xin vay nợ để phân tích mô hình
Tuổi Thu nhập Tài sản Nợ Yêu cầu Rủi ro Tín Kết quả
dụng
20 (trẻ) 17,152 (thấp) 11,090 20,455 400 Cao Xanh Đúng hạn
23 (trẻ) 25,862 (thấp) 24,756 30,083 2,300 Cao Xanh Đúng hạn
28 (trẻ) 26,169 (thấp) 47,355 49,341 3,100 Cao Vàng Trễ hạn
23 (trẻ) 21,117 (thấp) 21,242 30,278 300 Cao Đỏ Nợ xấu
22 (trẻ) 7,127 (thấp) 23,903 17,231 900 Thấp Vàng Đúng hạn
26 (trẻ) 42,083 (trung bình) 35,726 41,421 300 Cao Đỏ Trễ hạn
24 (trẻ) 55,557 (trung bình) 27,040 48,191 1,500 Cao Xanh Đúng hạn
27 (trẻ) 34,843 (trung bình) 0 21,031 2,100 Cao Đỏ Đúng hạn
29 (trẻ) 74,295 (trung bình) 88,827 100,599 100 Cao Vàng Đúng hạn
23 (trẻ) 38,887 (trung bình) 6,260 33,635 9,400 Thấp Xanh Đúng hạn
28 (trẻ) 31,758 (trung bình) 58,492 49,268 1000 Thấp Xanh Đúng hạn
25 (trẻ) 80,180 (cao) 31,696 69,529 1000 Cao Xanh Trễ hạn
33 (trung niên) 40,921 (trung bình) 91,111 90,076 2,900 Trung bình Vàng Trễ hạn
36 (trung niên) 63,124 (trung bình) 164,631 144,697 300 Thấp Xanh Đúng hạn
39 (trung niên) 59,006 (trung bình) 195,759 161,750 600 Thấp Xanh Đúng hạn
39 (trung niên) 125,713 (cao) 382,180 315,396 5,200 Thấp Vàng Đúng hạn
55 (trung niên) 80,149 (cao) 511,937 21,923 1,000 Thấp Xanh Đúng hạn
62 (già) 101,291 (cao) 783,164 23,052 1,800 Thấp Xanh Đúng hạn
71 (già) 81,723 (cao) 776,344 20,277 900 Thấp Xanh Đúng hạn
63 (già) 99,522 (cao) 783,491 24,643 200 Thấp Xanh Đúng hạn
Bảng 4.5: Tập dữ liệu về xin vay nợ để kiểm tra mô hình

Tuổi Thu nhập Tài sản Nợ Yêu cầu Rủi ro Tín Kết quả
dụng
37 (trung niên) 37,214 (Trung bình) 123,420 106,241 4,100 Thấp Xanh Đúng hạn
25 (trẻ) 67,808 (Trung bình) 25,174 61,271 3,100 Cao Vàng Đúng hạn
36 (trung niên) 102,143 (Cao) 246,148 231,334 600 Thấp Xanh Đúng hạn
29 (trẻ) 34,579 (Trung bình) 49,387 59,412 4,600 Cao Đỏ Đúng hạn
26 (trẻ) 22,958 (Thấp) 29,878 36,508 400 Cao Vàng Trễ hạn
28 (trẻ) 80,019 (Cao) 78,632 100,957 12,800 Cao Xanh Đúng hạn
32 (trung niên) 57,407 (Trung bình) 117,062 101,967 100 Thấp xanh Đúng hạn
Bảng 4.6: Đơn xin vay nợ mới

Tuổi Thu nhập Tài sản Nợ Yêu cầu Tín dụng
25 28,650 9,824 2,000 10,000 Xanh
30 35,760 12,974 32,634 4,000 Vàng
32 41,862 625,321 428,643 3,000 Đỏ
36 36,843 80,431 120,643 12,006 Xanh
37 62,743 421,753 321,845 5,000 Vàng
37 53,869 286,357 302,958 4,380 xanh
37 70,120 484,264 303,958 6,000 xanh
38 60,429 296,843 185,769 5,250 xanh
39 65,826 321,959 392,817 12,070 xanh
40 90,426 142,098 25,426 1,280 vàng
40 70,256 528,493 283,745 3,280 xanh
42 58,326 328,457 120,849 4,870 xanh
42 61,242 525,673 184,762 3,300 xanh
42 39,676 326,346 421,094 1,290 Đỏ
43 102,496 823,532 175,932 3,370 xanh
43 80,376 753,256 239,845 5,150 vàng
44 74,623 584,234 398,456 1,525 xanh
45 91,672 436,854 275,632 5,800 xanh
52 120,721 921,482 128,573 2,500 vàng
63 86,521 241,689 5,326 30,000 xanh
Dữ liệu về xin việc

Bộ dữ liệu gồm 500 người đã xin việc. Các biến bao gồm:
Tuổi số nguyên dương, từ 20 đến 65
Bang gốc bang nào
Bằng cấp Cert Chứng chỉ chuyên môn
UG bằng ĐH
MBA Thạc sĩ QTKD
MS Thạc sĩ khoa học
PhD Tiến sĩ
Chuyên môn None Không
Engr Kỹ sư
Sci Toán học
Csci Khoa học máy tính
BusAd Quản trị kinh doanh
IS Hệ thống thông tin
Kinh nghiệm Số nguyên Số năm kinh nghiệm trong lĩnh vực

Kết quả Thứ bậc Quá thấp
(đánh giá) Mức tối thiểu
Trung bình
Cao
Bảng 4.7 thể hiện 10 quan sát trong tập dữ liệu được dùng để nghiên cứu. Chú ý là một số
biến này là dạng định lượng và một số biến khác là định danh. Bang, bằng cấp và chuyên môn
là dữ liệu định danh. Không có nội dung thông tin cũng được coi là có nghĩa ở biến Bang và
biến chuyên môn. Biến Bang không có trật tự cụ thể trước khi phân tích, chuyên môn cũng
không. (Tuy nhiên phân tích có thể kết luận rằng có mối quan hệ giữa tình trạng, chuyên môn
và thu nhập). Bằng cấp là biến thứ bậc trong đó MS và MBA cao hơn BS. Tuy nhiên như với
Bang và chuyên môn, phân tích có thể tìm thấy một mối quan hệ giữa bằng cấp với thu nhập.
Bảng 4.8 trình bày dữ liệu kiểm tra cho tình huống này. Bảng 4.9 liệt kê những người xin việc
mới sẽ được phân loại dựa vào dự đoán kết quả công việc.
Bảng 4.7: Tập dữ liệu về những người xin việc sẽ dùng để phân tích mô hình
Hồ sơ Tuổi Bang Bằng cấp Chuyên môn Kinh nghiệm Kết quả đánh giá
1 27 CA BS Kĩ sư 2 năm Cao
2 33 NV MBA Quản trị kinh doanh 5 năm Trung bình
3 30 CA MS Khoa học máy tính 0 Trung bình
4 22 CA BS Hệ thống thông tin 0 Quá thấp
5 28 CA BS Hệ thống thông tin 2 năm Mức cơ bản
6 26 CA MS Quản trị kinh doanh 0 Cao
7 25 CA BS Kĩ sư 3 năm Trung bình
8 28 OR MS Khoa học máy tính 2 năm Trung bình
9 25 CA BS Hệ thống thông tin 2 năm Mức cơ bản
10 24 CA BS Hệ thống thông tin 1 năm Trung bình
Bảng 4.8: Tập dữ liệu về những người xin việc sẽ dùng để kiểm tra
Hồ sơ Tuổi Bang Bằng cấp Chuyên môn Kinh nghiệm Kết quả đánh giá
11 36 CA MS Hệ thống thông tin 0 Mức cơ bản
12 28 OR BS Khoa học máy tính 5 năm Quá thấp
13 24 NV BS Hệ thống thông tin 0 Cao
14 33 CA BS Kĩ sư 2 năm Trung binh
15 26 CA BS Quản trị kinh doanh 3 năm Mức cơ bản
Bảng 4.9: Tập dữ liệu về những người xin việc mới

Tuổi Bang Bằng cấp Chuyên môn Kinh nghiệm
28 CA MBA Kĩ sư 0
26 NM UG Toán học 3
33 TX MS Kĩ sư 6
21 CA Cert Không 0
26 OR Cert Không 5
25 CA UG Quản trị kinh doanh 0
32 AR UG Kĩ sư 8
41 PA MBS Quản trị kinh doanh 2
29 CA UG Toán học 6
28 WA UG Khoa học máy tính 3
Dữ liệu về gian lận bảo hiểm

Bộ dữ liệu thứ ba là các yêu cầu bảo hiểm. Toàn bộ tập dữ liệu gồm 5.000 yêu cầu bảo hiểm
trước đây với kết quả đã biết. Các biến bao gồm tuổi của người đòi bảo hiểm, giới tính, tổng
số tiền đòi chi trả, số vé phạt trong hồ sơ hiện tại (từ 3 năm trở lại), số lần đòi bảo hiểm tai
nạn thuộc diện được trả bảo hiểm trước đây, và luận sư đại diện (nếu có). Bảng 4.10 thể hiện
dữ liệu để phân tích. Dữ liệu kiểm tra ở Bảng 4.11. Các đòi hỏi bảo hiểm mới thể hiện ở Bảng
4.12.
Bảng 4.10 Tập dữ liệu về những đòi hỏi bảo hiểm để phân tích
Tuổi người Giới tính Số tiền đòi chi Số vé Số lần đòi bảo hiểm Luật sư Kết cục
đòi BH trả phạt trước đây
52 Nam 2000 0 1 Jonis Đạt yêu cầu
38 Nam 1800 0 0 Không có Đạt yêu cầu
21 Nữ 5600 1 2 Smith Gian lận
36 Nữ 3800 0 1 Không có Đạt yêu cầu
19 Nam 600 2 2 Adams Đạt yêu cầu
41 Nam 4200 1 2 Smith Gian lận
33 Nữ 2500 0 1 Không có Gian lận
Bảng 4.11 Tập dữ liệu về những đòi hỏi bảo hiểm để kiểm tra
Tuổi người Giới tính Số tiền Số vé Số lần đòi bảo hiểm Luật sư Kết cục
đòi BH đòi chi trả phạt trước đây
28 Nam 4200 2 3 Smith Gian lận
41 Nam 1600 0 0 Henry Đạt yêu cầu
Bảng 4.12 Tập dữ liệu về những đòi hỏi bảo hiểm mới
Tuổi người Giới tính Số tiền Số vé Số lần đòi bảo hiểm Luật sư
đòi BH đòi chi trả phạt trước đây
23 Nam 1800 1 1 Không có
32 Nữ 2100 0 0 Không có
20 Nữ 1600 0 0 Không có
18 Nữ 3300 2 0 Không có
55 Nam 4000 0 0 Smith
38 Nữ 3100 0 0 Không có
16 Nữ 4500 1 2 Gold
24 nam 2600 1 1 Không có
Dữ liệu về chi tiêu

Bộ dữ liệu này mô tả dữ liệu về người tiêu dùng tại một vùng dân cư được thu thập bởi một
công ty chuyên nghiên cứu thị trường giả định tại một thành phố có quy mô trung bình. Mười
ngàn quan sát được thu thập theo các biến sau:
NHÂN KHẨU HỌC
Age (Tuổi) số nguyên (từ 16 trở lên)
Gender (Giới tính) 0 là nữ và 1 là nam
Marital Status (Tình trạng hôn nhân) 0 là độc thân, 0,5 là ly dị và 1 là có gia đình
Dependents (Số người phụ thuộc) số người ăn theo
Income (Thu nhập) thu nhập hằng năm tính bằng đôla
Job yrs (Số năm làm việc) số năm làm công việc hiện tại (số nguyên)
Town yrs (Số năm tại địa phương) số năm sống tại vùng dân cư này
Yrs Ed (Số năm đi học) số năm đi học hoàn thành
Dri Lic (Bằng lái xe) có bằng lái xe (1 là có và 0 là không)

Own Home (Sở hữu nhà) 1 là có và 0 là không
# Cred C (Số thẻ tín dụng) số lượng thẻ tín dụng
KHÁCH HÀNG
Churn số dư thẻ tín dụng bị hủy năm ngoái
ProGroc tỷ lệ thu nhập chi mua hàng thực phẩm năm ngoái
ProRest tỷ lệ thu nhập chi cho việc ăn nhà hàng
ProHous tỷ lệ thu nhập chi cho nhà ở
ProUtil tỷ lệ thu nhập chi cho tiện ích (điện, nước, gas)
ProAuto tỷ lệ thu nhập chi cho Ô tô (sở hữu và vận hành)
ProCloth tỷ lệ thu nhập chi cho quần áo
ProEnt tỷ lệ thu nhập chi cho giải trí
Tập dữ liệu này có thể sử dụng cho một số nghiên cứu như:
Dạng khách hàng nào sẽ có nhiều khả năng ăn uống tại nhà hàng nhất?
Đâu là thị trường cho đồ nội thất?
Dạng khách hàng nào sẽ có khả năng ưa thích các mặt hàng sau nhất?
Quần áo
Giải trí
Mối quan hệ giữa chi tiêu và các biến nhân khẩu học?
Cuốn sách đi cùng với các phiên bản mở rộng của bộ dữ liệu sử dụng ở Chương 3 cũng như
toàn bộ 3 bộ dữ liệu được nói đến ở chương này, có thể sử dụng cho khai thác dữ liệu và được
hỗ trợ bởi phần mềm. Tất cả các bộ dữ liệu này có thể được sử dụng cho nhiều thuật toán (chứ
không phải một bộ dữ liệu chỉ áp dụng được 1 phương pháp).
PHỤ LỤC
MINH HỌA PHẦN MỀM ENTERPRISE MINER TRÊN BỘ DỮ LIỆU CHI TIÊU
Nội dung phần phụ lục này sẽ đưa ra một cái nhìn toàn cảnh về phần mềm khai thác dữ liệu.
Nó bao gồm nhiều chi tiết liên quan đến các phương pháp mà chúng ta sẽ nghiên cứu trong
các chương kế tiếp. Chương trình này được trình bày tại đây để chỉ cho chúng ta biết chúng ta
sẽ đi đến đâu.
Enterprise Miner được sản xuất bởi SAS là một trong những phần mềm khai thác dữ liệu
được sử dụng phổ biến nhất. Trong phần phụ lục này chúng ta minh họa cách sử dụng nó
trong quá trình khai thác dữ liệu.
Trong tập dữ liệu về chi tiêu đã mô tả trong nội dung chính của chương chúng ta quan tâm
đến câu hỏi “Dạng khách hàng nào sẽ có khả năng cần nhà hàng nhất?”
Trong ENTERPRISE MINER, đầu tiên chúng ta truy cập vào file BIGOUT mà có chứa bộ dữ
liệu về chi tiêu. Để trả lời câu hỏi chúng ta cần điều chỉnh dữ liệu theo quy tắc code của SAS.
Chúng ta tạo ra biến khác được gọi tên là Inc-ProRest với ý nghĩa thu nhập được đem nhân
với ProRest. Biến này sẽ là mục tiêu của chúng ta để trả lời câu hỏi nghiên cứu
(Income_ProRest = Inc-ProRest: Mục tiêu). Hình 4A.1 thể hiện lưu đồ điều khiển của
Enterprise Miner.
Hình 4A.1 Màn hình điều khiển của Enterprise Miner
Phân chia dữ liệu

Phần này cung cấp một cái nhìn toàn cảnh về tiến trình nghiên cứu khai thác dữ liệu của
Enterprise Miner. Các bước này sẽ được sẽ được thể hiện một cách chi tiết trong các hình vẽ
minh họa. Bước đầu tiên là nhập dữ liệu. Việc này có thể sẽ rất khó khăn vì dữ liệu thường
xuất phát từ nhiều nguồn khác nhau. Phần mềm xử lý khai thác dữ liệu được thiết kế để phù
hợp với các nguồn dữ liệu phổ biến nhất, nhưng nếu dữ liệu xuất phát từ một nguồn không có
trong danh mục, chương trình sẽ lưu 1 file dưới dạng CSV phân cách bởi dấu phẩy. Hình
4A.2 thể hiện màn hình Enterprise Miner mà bạn có thể chọn một file. Chú ý rằng file này bao
gồm 10.000 dòng và 23 cột. Tab trên đầu cho phép bạn thể hiện biến.
Hình 4A.2 Màn hình Enterprise Miner để mở tập tin dữ liệu
Một khi dữ liệu được nhập vào chúng ta dùng lệnh phân chia dữ liệu để làm việc với dữ liệu.
Thao tác kế tiếp sẽ là chọn biến mục tiêu. Hình 4A.3 minh họa điều này với biến mục tiêu là
INC_PROREST là biến được biến đổi theo kiểu thu nhập nhân với tỷ lệ thu nhập dành cho ăn
nhà hàng.
Trong trường hợp này tỷ lệ của thu nhập chi cho nhà hàng được chọn. Người sử dụng sau đó
có thể áp dụng nhiều mô hình khai thác dữ liệu. Ở đây có 3 dạng mô hình sẵn có là hồi qui,
cây quyết định và mạng thần kinh.
Hình 4A.3 Màn hình Enterprise Miner để đặt biến mục tiêu
Mô hình hồi qui

Trong Hình 4A.4 click vào biểu tượng tên Regression để mở hộp thoại để chạy mô hình với
công cụ này.
Hình 4A.4 Màn hình điều khiển của Enterprise Miner
Trong màn hình kế tiếp (Hình 4A.5) Enterprise Miner cho phép người sử dụng lựa chọn bao
nhiêu quan sát đưa vào phân tích, đánh giá, và kiểm tra, cũng như các thông số điều khiển
khác.
Trong trường hợp này 40% dữ liệu (4.000 quan sát) được chọn cho việc chạy thử, 30% dữ
liệu (3.000 quan sát) dành cho phân tích đánh giá mô hình và 30% dữ liệu (3.000 quan sát) để
kiểm tra mô hình. Các thông số khác cho phép chọn cách thức chọn các quan sát cụ thể vào
mỗi nhóm dữ liệu. Chúng ta mặc định chọn “Ngẫu nhiên đơn giản” để chọn ngẫu nhiên các
quan sát. Phương pháp chọn phân tầng sẽ được sử dụng nếu kỳ vọng có sự khác biệt có ý
nghĩa trong các phần khác nhau của tập dữ liệu. Hạt giống số ngẫu nhiên có thể được sử dụng
để đảm bảo rằng các lần chạy mô hình trong tương lai đạt được cùng cách phân công ngẫu
nhiên các quan sát. Đây là một cách có hiệu quả trong việc đảm bảo độ ổn định của mô hình
kết quả.
Hình 4A.6 thể hiện màn hình Enterprise Miner chạy thành công một mô hình. Nếu có lỗi
trong đầu vào chúng sẽ được thể hiện trong giai đoạn này.
Khi click nút Yes, Enterprise Miner sẽ cho bạn các kết quả hữu dụng ở dạng trực quan. Hình
4A.7 mô tả đồ thị của giá trị kiểm định T. Hình 4A.8 đưa lên đồ thị các kết quả dự đoán của
mô hình và các giá trị thực tế.
Biến phụ thuộc, InC_ProRest thực tế (trục X thể hiện tổng số tiền chi tiêu cho nhà hàng quan
sát được vẽ theo trục X, và các giá trị dự đoán mô hình theo trục Y. Ở đây rõ ràng có rất nhiều
điểm phù hợp, và có một vài lỗi. Hiển nhiên, sẽ khó mà dự đoán được tổng chi tiêu tại nhà
hàng cho các trường hợp có thu nhập cao. Giá trị T thực tế (việc sử dụng những số liệu này
được thể hiện trong hình 4A.7) được trình bày tại bảng 4A.1
Hình 4A.5 Màn hình điều khiển dữ liệu của Enterprise Miner
Hình 4A.6 Màn hình thể hiện kết quả mô hình của Enterprise Miner
Hình 4A.7 Kết quả giá trị T của mô hình hồi qui trên Enterprise Miner
Hình 4A.8 Kết quả hồi qui trên Enterprise Miner
Bảng 4A.1 Ước lượng mô hình hồi qui, giá trị T, và các mức ý nghĩa xác suất
Tham số Ước lượng Giá trị T Pr > |t|
Hệ số chặn (hằng số trong phương trình) -0.3110 -2.01 0.0444
Age (Tuổi) 0.0094 16.70 <0.0001
Churn -0.0021 -0.16 0.8767
Dep 0 (không có người phụ thuộc) 0.2617 2.90 0.0037
Dep 1 (số người phụ thuộc 1) 0.3037 4.02 <0.0001
Dep 2 (số người phụ thuộc 2) 0.3326 5.56 <0.0001
Dep 3 (số người phụ thuộc 3) 0.0956 1.80 0.0714
Dep 4 (số người phụ thuộc 4) 0.0368 0.56 0.5741
Dep 5 (số người phụ thuộc 5) -0.2321 -2.34 0.0191
Dep 6 (số người phụ thuộc 6 -0.2731 -1.75 0.0800
Gender (Giới tính) -0.0066 -0.81 0.4201
Tình trạng hôn nhân 0 (độc thân) 0.3376 20.84 <0.0001
Tình trạng hôn nhân 0.5 (ly dị) -0.1654 -11.57 <0.0001
ProAuto (tỷ lệ thu nhập chi cho xe hơi) -0.7741 -1.90 0.0572
ProCloth (tỷ lệ thu nhập chi cho quần áo) 0.5099 1.86 0.0623
ProEnt (tỷ lệ thu nhập chi cho giải trí) -10.8093 -25.99 <0.0001
ProGroc (tỷ lệ thu nhập chi cho hàng thực phẩm) 1.1478 3.16 0.0016
ProHous (tỷ lệ thu nhập chi cho nhà ở) -0.6405 -1.95 0.0517
ProRest (tỷ lệ thu nhập chi cho ăn nhà hàng) 26.9854 68.74 <0.0001
ProUtil (tỷ lệ thu nhập chi cho vật dụng) -1.8023 -4.35 <0.0001
Ibncome (Thu nhập) -0.0021 -1.41 0.1584
Job Years (Số năm kinh nghiệm) -0.0012 -0.66 0.5115
Town Years (Sô năm sống tại thành phố) 0.0002 0.24 0.8119
Years Education (Số năm đi học) -0.00144 -0.35 0.7233
Drivers License (Bằng lái) -0.0268 -1.36 0.1734
Own home (Sở hữu nhà) -0.220 -1.14 0.2538
Number Credit Cards (Số lượng thẻ tín dụng) -0.0016 -0.59 0.5546
ProHousing (tỷ lệ chi tiêu trên thu nhập cho nhà ở) 0.0263 2.49 0.0129
Inc_ProCloth (thu nhập * tỷ lệ thu nhập chi cho quần áo) 0.0107 1.15 0.2488
Inc+ProEnt (Thu nhập * tỷ lệ thu nhập chi cho giải trí) 0.2873 16.97 <0.0001
Cần chú ý mức độ dễ dàng hơn khi diễn dịch hình 4A.7 so với bảng 4A.1. Tuy nhiên nhiệm
vụ chi tiết đòi hỏi thông tin chi tiết như mức độ cho trong bảng. Đặc trưng của mô hình hồi
qui là có một số lỗi. Hình 4A.8 cho thấy tại mức thu nhập thấp mô hình cho ra một vài chi
tiêu âm tại nhà hàng. Dĩ nhiên điều này là không thể xảy ra. Có nhiều khi mô hình hồi qui bị
buộc phải đảm nhận những loại giá trị cụ thể (ở đây giá trị lớn hơn hay bằng 0 là có thể phù
hợp, dù vậy mô hình vẫn cung cấp các kết quả hữu ích). Enterprise Miner cung cấp cả kết quả
phân tích phương sai và phân tích các kết quả ảnh hưởng (không trình bày ở đây.). Thông tin
về độ phù hợp của mô hình cũng được cung cấp. Trong trường hợp này R2 = 0,8031, khá tốt,
mặc dù với số biến được cung cấp nó vẫn tỏ ra chưa ấn tượng lắm. Giá trị R 2 điều chỉnh bằng
0,8016 chỉ ra rằng các biến thêm vào không gây ra thiên lệch nhiều ngoài mong đợi.
Mô hình hồi qui (các tham số ước lượng trong Bảng 4A.1) có thể áp dụng trong Enterprise
Miner cho các quan sát mới (mà các quan sát này) được mô tả bởi các giá trị biến của nó. Các
tham số ước lượng lần lượt được đưa vào một bảng tính hoặc một hệ thống khác để áp dụng
mô hình ở bên ngoài chương trình này cũng được.
Mô hình cây quyết định

Có thể chọn mô hình cây quyết định từ Hình 4A.1. Kết quả cây quyết định thành công cho bộ
dữ liệu chi tiêu được thể hiện trong Hình 4A.9.
Trên góc phần tư phía trên bên trái của hình 4A.9 thể hiện rằng 4.000 quan sát được sử dụng
trong mô hình phân tích, với lỗi trung bình 1,39 (tương đương R2 = 0,942). Trong mô hình
định giá trị, lỗi trung bình đạt giá trị 1,396 (tương đương R2 = 0,920), Có 56 phương án trong
cây quyết định, mà được thể hiện dưới dạng hình ảnh trong hình vòng tròn, qua đó đã thể hiện
cách các phương án này phân chia bộ dữ liệu. Tỷ lệ lỗi bình phương trung bình của dữ liệu
phân tích và dữ liệu đánh giá được thể hiện phía dưới bên tay phải, thể hiện vai trò của mỗi
phương án trong tiến trình làm giảm phương sai không thể giải thích được của bộ dữ liệu. Kết
quả này có thể được hình thành từ cửa sổ Enterprise Miner bằng cách chọn View, rồi đến Tree
và đánh dấu lựa chọn trong hộp thoại Cây thống kê. Hình 4A.10 đưa ra một thể hiện cụ thể
của kết quả, qua đó ta thấy các chi tiết của sự phân tách dữ liệu.
Hình 4A.9 Màn hình điều khiển cây quyết định của Enterprise Miner
Hình 4A.10 Kết quả phân tách cây quyết định trên Enterprise Miner
Mô hình mạng thần kinh

Mô hình mạng thần kinh sẽ được thực hiện từ icon Neural Network như trong Hình 4A.1. Có
các lựa chọn để xác định số nơ-ron (tế bào) và lớp ẩn, nhưng chúng ta sử dụng cài đặt mặc
định. Mỗi phần mềm sẽ có sự hướng dẫn để giúp ta cải tiến mô hình, Hình 4A.11 thể hiện kết
quả mô hình cho từng tập dữ liệu : phân tích, đánh giá và kiểm tra.
Kết quả này cũng cung cấp số thống kê về độ phù hợp của mô hình. Sai số bình phương trung
bình là thể hiện rõ nhất. Như mong đợi, dữ liệu phân tích có độ phù hợp tốt nhất. ở đây độ
phù hợp kiểm tra được so sánh với cái tương ứng trên mô hình cây quyết định, với sai số bình
phương trung bình 0,0701 so với con số của mô hình cây quyết định là 0,0701. Mạng thần
kinh cung cấp một mô hình tương đối phức tạp.
Hình 4A.11 Kết quả mô hình mạng thần kinh cho dữ liệu chi tiêu trên Enterprise Miner
Hình 4A.12 cho thấy kết quả chạy mô hình mạng thần kinh trên Enterprise Miner, cung cấp
trọng số trên mỗi vòng cung được thể hiện ra. Ở đây các trọng số của biến đầu vào cho các
nốt ẩn H11 và H12 được trình bày. Nhưng còn có nhiều vòng cung khác trong mô hình đầy
đủ. Đó là lý do tại sao mô hình mạng thần kinh khó chuyển ra ngoài hệ thống phần mềm mà
chúng được xây dựng.
Hình 4A.12 Thành phần của mô hình mạng thần kinh trên Enterprise Miner cho dữ liệu chi tiêu
Hình 4A.13 thể hiện tiến trình mô hình mạng thần kinh theo bối cảnh giảm dần đi sai số trung
bình của tập dữ liệu phân tích và đánh giá bởi số mối tương tác
Hình 4A.13 Tiến trình mô hình mạng thần kinh trên Enterprise Miner cho dữ liệu chi tiêu
TÓM TẮT
Nhiều công cụ sẵn có cho khai thác dữ liệu và có thể đạt tới nhiều hàm số. Các công cụ này
xuất phát từ thống kê, nghiên cứu thực hiện và trí tuệ nhân tạo, và nó cung cấp những kĩ thuật
hữu dụng để đạt được các hàm phân tích đa dạng như phân tích cụm, phân tích biệt số và phát
triển các quy tắc liên kết. Phần mền khai thác dữ liệu cho ta các phương tiện hữu ích để áp
dụng các công cụ này với những bộ dữ liệu số lớn, đem lại cho công tác quản lý tổ chức
những phương tiện giúp mô phỏng các dữ liệu nhiều đến mức thừa mứa trong tổ chức và
chuyển hóa một số trong chúng thành kiến thức hữu ích.
Chương này bắt đầu với một cái nhìn tổng quát về công cụ và hàm số, nó cũng mô tả 4 tập dữ
liệu mà được sử dụng trong các chương kế tiếp. Các bộ dữ liệu này tuy nhỏ nhưng cung cấp
cho người đọc hình dung về loại dữ liệu tiêu biểu sẽ gặp trong các nghiên cứu về khai thác dữ
liệu.
Phần phụ lục của chương này giới thiệu nhanh về các công cụ trên phần mềm ENTERPRISE
MINER, một phần mềm khai thác dữ liệu hàng đầu. Dữ liệu căn bản được thể hiện và các mô
hình phân tích được minh họa với các mô hình kết quả.
Chú thích thuật ngữ

Artificial intelligence: sử dụng học máy để tìm ra kết luận, trong lĩnh vực khai thác dữ liệu
người ta sử dụng phương pháp mạng thần kinh, suy luận căn cứ trên các trường hợp, giải
thuật gien, hoặc những công cụ trí tuệ nhân tạo khác.
Association: tập các quy tắc được sử dụng để thể hiện các mối quan hệ giữa dữ liệu
Classification: phương pháp để sắp trật tự dữ liệu vào các nhóm kết quả
Clustering: công cụ phân tích ban đầu để nhận diện các nhóm cơ bản trong dữ liệu
Detection: Nhận dạng những sự dị thường và bất thường như điều tra gian lận
Estimation: Phương pháp để dự đoán một kết quả.
Dự đoán: Mô hình sử dụng để đưa biến giải thích vào và biến đổi thông qua một mô hình để
dự đoán 1 biến kết quả
Statistics: trong ngữ cảnh công cụ khai thác dữ liệu là việc sử dụng những thuật toán căn cứ
trên các phương pháp thống kê truyền thống, chẳng hạn hồi qui
Summarization: Phân tích thống kê mô tả và phân tích đồ thị để thể hiện những đặc trưng
của biến cho các nhà phân tích khai thác dữ liệu.
Bài Tập
1. Nguồn nào phát ra các tập dữ liệu lớn (large-scale data) cho một hãng ?
2. Đâu là khác biệt giữa phương pháp khai thác dữ liệu căn cứ trên thống kê và phương
pháp khai thác dữ liệu căn cứ trên trí tuệ nhân tạo?
3. Mô tả khác biệt giữa phân lớp và dự đoán?
4. Trong tập tin những người xin vay nợ, kỳ vọng ban đầu của bạn (tức là của việc phân
tích khai thác dữ liệu) về đặc tính của các khoản nợ sẽ không được trả đúng hạn là gì?
5. Không có thêm thông tin nào khác về những người xin vay nợ ngoài Bảng 4.6, với
phân khúc nào bạn đồng ý cho vay nợ?
6. Trong tập tin những người xin việc, kỳ vọng ban đầu của bạn (tức là của việc phân
tích khai thác dữ liệu) về các đặc điểm (trong tập dữ liệu) cho đánh giá kết quả làm
việc xuất sắc và không chấp nhận được là gì?
7. Với tập tin những người xin việc, bạn sẽ thuê một người với những đặc điểm gì? Nếu
bạn có thể thuê số lượng người bất kỳ, những người nào bạn sẽ thuê?
8. Trong tập tin các yêu cầu bảo hiểm, kỳ vọng ban đầu của bạn (tức là của việc phân
tích khai thác dữ liệu) về các đặc điểm (trong tập dữ liệu) của những yêu cầu gian lận
là gì?
9. Với những yêu cầu bảo hiểm được trình bày trong bảng 4.12, những trường hợp nào
bạn sẵn lòng chi 2000đô để điều tra? những trường hợp nào bạn sẵn lòng chi 20000đô
để điều tra?
10. Trong tập tin chi tiêu, kỳ vọng ban đầu của bạn (tức là của việc phân tích khai thác dữ
liệu) về đặc tính của những người sẽ chi trên 5.000 đô mỗi năm cho ăn nhà hàng là gì?
11. Trong tập tin chi tiêu. Dạng người nào bạn kỳ vọng sẽ chi tiêu một tỷ lệ đáng kể trong
thu nhập cho đồ lặt vặt?
thu nhập cho quần áo?
thu nhập cho giải trí?
thu nhập cho việc sở hữu và vận hàng ô tô?
15. Trong tập tin chi tiêu. Dạng người nào bạn kỳ vọng có tài khoản thẻ tín dụng bị hủy
bỏ?
Kết chú
1
M.Y. Kiang and A.Kumar, “An Evaluation of Self- Organizing Map Networks as a Robust
Alternative to Factor Analysis in Data mining Application, ” Information systems Research,
volume 12, number 2, 2001, pp. 177-194
2
A. Radding, “Unpacking the Mystery of the Black Box,” Software Magazine, Data Mining
Prime Supplement, December 1997, pp. S8-S9
3
P.R.Peacock, “Data mining in Marketing:Part I, “Marketing Management, 6:4, Winter 1998,
pp. 8-19.
4
M.J.A Berry and G.Linoff, Data mining techniques, New York: John Wiley & Sons, 1997
5
I. Bose and R.K.Mahapatra, “Bussiness Data mining-A A Machine Learning Perspective,”
Information & Management, volume 39, 2001, pp. 211-225.
6
Ibid
7
Ibid

DataMining - Chuong 4

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DataMining - Chuong 4

Uploaded by

Copyright:

Available Formats

Khai thác dữ liệu trong kinh doanh Chương 4

TỔNG QUAN VỀ CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU

Nội dung chương này:

CÁC MÔ HÌNH KHAI THÁC DỮ LIỆU

BỐI CẢNH KHAI THÁC DỮ LIỆU

CÁC CHỨC NĂNG KHAI THÁC DỮ LIỆU

CÁC TẬP DỮ LIỆU MINH HỌA

Dữ liệu về xin vay

Bảng 4.5: Tập dữ liệu về xin vay nợ để kiểm tra mô hình

Bảng 4.6: Đơn xin vay nợ mới

Dữ liệu về xin việc

Kinh nghiệm Số nguyên Số năm kinh nghiệm trong lĩnh vực

Bảng 4.9: Tập dữ liệu về những người xin việc mới

Dữ liệu về gian lận bảo hiểm

Dữ liệu về chi tiêu

Dri Lic (Bằng lái xe) có bằng lái xe (1 là có và 0 là không)

Hình 4A.1 Màn hình điều khiển của Enterprise Miner

Phân chia dữ liệu

Mô hình hồi qui

Hình 4A.8 Kết quả hồi qui trên Enterprise Miner

Mô hình cây quyết định

Mô hình mạng thần kinh

Chú thích thuật ngữ

You might also like