DataMining - Chuong 7

Khai thác dữ liệu trong kinh doanh Chương 7
CHƯƠNG 7
MẠNG THẦN KINH TRONG KHAI THÁC DỮ LIỆU
Nội dung chương 7:

• Mô tả việc sử dụng mạng thần kinh trong khai thác dữ liệu.
• Xem xét các ứng dụng thực tế của từng mô hình
• Chỉ ra các ứng dụng của các mô hình dữ liệu lớn hơn
Các ngân hàng thương mại cho các doanh nghiệp vay tiền. Thị trường của cho vay này liên
quan đến một số rủi ro, có thể có nhiều rủi ro hơn dịch vụ ngân hàng cá nhân, bởi vì không
phải tất cả những doanh nghiệp tham gia đều thu được lợi nhuận.
Như nhiều ứng dụng khai thác dữ liệu trong kinh doanh tương tự, khả năng dự đoán sự thành
công của khách hàng giúp ngân hàng đưa ra quyết định dễ dàng. Cho dù khó mà có được các
mô hình dự đoán hoàn hảo, thì một số kĩ thuật khai thác dữ liệu có thể giúp cải thiện được khả
năng dự đoán. Các mô hình mạng thần kinh được áp dụng đối với các dữ liệu có thể được
phân tích theo các mô hình khác. Quá trình khai thác dữ liệu thông thường là thử tất cả các
mô hình thay thế khác nhau và xem xét mô hình nào là tốt nhất cho một kiểu dữ liệu cụ thể
theo thời gian. Nhưng có một số loại dữ liệu mà các mô hình mạng thần kinh thường cho kết
quả tốt hơn hẳn các phương pháp khác như hồi qui hoặc cây quyết định. Mạng thần kinh có
xu hướng tốt hơn khi có mối quan hệ phức tạp trong dữ liệu, chẳng hạn như độ liên hệ phi
tuyến cao. Vì vậy, nó có xu hướng hữu hiệu trong các lĩnh vực khó giải quyết trong đó khả
năng không thể dự đoán cao. Ngân hàng thương mại là một trong những lĩnh vực như vậy.
Mạng thần kinh có thể được áp dụng cho nhiều loại dữ liệu. Một trong những ứng dụng đầu
tiên của mạng thần kinh là trong giải mã (decphering) các ký tự của bảng chữ cái trong nhận
diện chữ. Điều này liên quan đến 26 chữ cái khác nhau và một số kết quả có giới hạn (nhưng
nhiều hơn hai). Nhiều vấn đề dự đoán trong kinh doanh liên quan đến nhiều hơn hai kết quả,
chẳng hạn như các loại hiệu suất làm việc của nhân viên. Tuy nhiên, thông thường thì hai loại
kết quả sẽ được thực hiện một cách dễ dàng, chẳng hạn thanh toán đúng hạn hay thanh toán
trễ hạn. Mạng thần kinh có thể dùng với với các dữ liệu đầu vào dạng liên tục, hoặc dạng
phân loại, làm cho chúng linh hoạt khi ứng dụng trong khai thác dữ liệu. Điều này cũng đúng
cho các mô hình hồi qui và cây quyết định, cả ba đều hỗ trợ các quá trình khai thác dữ liệu.
Mạng thần kinh là phương pháp được sử dụng rộng rãi nhất trong khai thác dữ liệu. Đó là
những chương trình máy tính nhận những trường hợp quan sát trước đó và dùng chúng để xây
dựng một hệ thống các mối quan hệ trong một mạng lưới các nút (giao điểm kết nối) bởi các
cung. Hình 7.1 cho thấy một phác thảo đơn giản của một mạng thần kinh.
Ý tưởng của các mạng thần kinh có được là từ cách hoạt động của tế bào thần kinh trong não.
Các tế bào thần kinh được kết nối với nhau và nhận mệnh lệnh điện từ trên khớp thần kinh
(khoảng trống nhỏ giữa các tế bào thần kinh). Những tế bào lần lượt chuyền mệnh lệnh điện
qua những tế bào lân cận khác. Mối quan hệ giữa mạng thần kinh nhân tạo và mạng thần kinh
thực có lẽ kết thúc tại điểm đó. Não của con người chứa hàng tỷ các kết nối liên tiếp, trong đó
mỗi khớp nối chỉ đóng góp phần nhỏ vào việc biến đổi của toàn bộ hệ thống điện của khớp
nối thần kinh giúp mã hóa tri thức1. Điều này cung cấp một số lượng lớn năng lực lưu trữ, và
làm cho mất một vài nghìn khớp kết nối (do hư hại nhỏ hoặc các tế bào chết). Mạng thần kinh
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 116
nhân tạo thường được bố trí trong ít nhất ba lớp, và có một cấu trúc xác định, phản ánh mối
quan hệ phi tuyến phức tạp, mặc dù chúng không có bất cứ điều gì gần với việc lưu trữ của
não bộ con người. Mỗi biến đầu vào của dữ liệu (tương tự cho các biến độc lập trong phân
tích hồi qui) có một nút trong lớp đầu tiên. Lớp cuối cùng đại diện cho kết quả. Để phân loại
mô hình mạng thần kinh, lớp kết quả này có một nút cho mỗi danh mục phân loại (trong
trường hợp đơn giản nhất, kết quả như là dự đoán của thành công hệ thống hoặc đúng hoặc
sai). Mạng thần kinh gần như luôn luôn có ít nhất một lớp giữa (ẩn) của những giao điểm mà
đó thường tạo phức tạp cho mô hình (mạng thần kinh hai lớp không được chứng minh là
mang lại thành công).
Hình 7.1: Mạng thần kinh đơn giản
Các biến đầu vào Lớp ẩn Các biến đầu ra
Mỗi nút được kết nối bởi một cung đến những nút của lớp kế tiếp. Những cung này có các
trọng số, được nhân với trị số của nút đầu vào tương ứng và cộng lại. Các trị số của nút đầu
vào được xác định bởi giá trị của biến trong tập dữ liệu. Những trị số của nút ở lớp giữa là
tổng của các trị số của các nút đầu vào nhân với trọng số của các cung. Đến lượt những trị số
của nút ở lớp giữa này được nhân với trọng số của các cung đi tới các nút kế tiếp. Mạng thần
kinh "học" thông qua các vòng lặp thông tin phản hồi. Cho giá trị đầu vào, kết quả cho các
trọng số xuất phát được tính. Kết quả đầu ra được so với các trị số mục tiêu, và sự khác biệt
giữa kết quả đạt được và kết quả mục tiêu được chuyển lại hệ thống để điều chỉnh trọng số
trên các cung.
Quá trình này được lặp đi lặp lại cho đến khi mạng phân loại một cách chính xác tỉ lệ của các
dữ liệu học được xác định bởi người sử dụng (độ chấp nhận). Về cơ bản, có thể tìm được một
tập hợp các trọng số giải thích được tập hợp dữ liệu học (phân tích) rất có hiệu quả. Mức độ
phù hợp đòi hỏi càng cao, mạng thần kinh càng dài, mặc dù không thể dễ dự đoán một cách
chính xác một mô hình cụ thể sẽ dài bao nhiêu để học. Tập hợp trọng số kết quả của một mô
hình thỏa mãn độ chấp nhận đã xác định được giữ lại trong hệ thống để áp dụng cho các dữ
liệu trong tương lai.
MẠNG THẦN KINH
Các chương trình này có thể được dùng để áp dụng kinh nghiệm học được cho các quan sát
mới, để quyết định, phân loại, và dự đoán. Bởi vì các chương trình này có thể dùng những tập
dữ liệu với nhiều dữ liệu đầu vào và liên hệ chúng đến một tập kết quả phân loại, chúng đòi
hỏi mẫu nhỏ. Không thể nói đơn giản chúng chỉ là một hộp đen để người khai thác dữ liệu có
thể quẳng dữ liệu vào và mong chờ đầu ra tốt. Sarle (1994) phát biểu về cân tri giác
(Perceptron), mạng thần kinh nhân tạo thông thường nhất, là không hơn hồi qui phi tuyến và
mô hình biệt số 2. Smith và Gupta (2000) gọi những công cụ xấp xỉ chức năng mạng thần kinh
vốn học mối quan hệ giữa các biến độc lập và biến phụ thuộc, tương tự như hồi qui theo khía
cạnh này3. Tuy nhiên, mạng thần kinh có các thuận lợi tương đối trong đó chúng đòi hỏi về
các đặc trựng dữ liệu hoặc phân phối thống kê. Mạng thần kinh cũng có xu hướng được chính
xác hơn khi xử lý với các kiểu mẫu dữ liệu phức tạp, như các mối quan hệ phi tuyến.
Có mô hình đòi hỏi khi sử dụng mạng thần kinh theo nghĩa lựa chọn biến đầu vào, để điều
khiển dữ liệu đầu vào, cũng như lựa chọn các tham số của mạng thần kinh, chẳng hạn như số
lượng các lớp ẩn cần thiết. Nhưng phần mềm máy vi tính có thể thực hiện các tính toán phức
tạp, áp dụng hồi qui phi tuyến để dựng mối liên hệ giữa đầu vào và đầu ra.
Có rất nhiều mô hình mạng thần kinh. Khoảng 95 phần trăm các ứng dụng trong kinh doanh
được báo cáo là đã sử dụng mạng thần kinh đầu vào đa lớp (multilayered feedforward với
nguyên tắc học cải tiến dần (Backpropogation)4. Mô hình này hỗ trợ các dự đoán và phân
loại khi nạp thông tin đầu vào và đã biết kết quả đầu ra. Cải tiến dần là kỹ thuật giám sát học
tập ở chỗ nó sử dụng một tập dữ liệu phân tích để phù hợp với mối quan hệ (hoặc học tập).
Mô hình này sử dụng một hoặc nhiều lớp ẩn của các tế bào thần kinh giữa đầu vào và đầu ra.
Mỗi yếu tố trong từng lớp được kết nối đến tất cả các yếu tố của các lớp kế tiếp, và mỗi cung
kết nối có một trọng số được điều chỉnh cho tới khi tỷ lệ giải thích bằng, hoặc cao hơn, một
độ chính xác đã xác định. Những lớp ẩn này cung cấp một phương tiện để phản ánh những
mối liên hệ phi tuyến khá tốt so với các mô hình hồi qui. Các mô hình mạng thần kinh có khối
lượng tính toán nhiều.
Nhiều ứng dụng trong kinh doanh không có nhiều dữ liệu như trong trường hợp lý tưởng.
Trong những tình huống như vậy, sản phẩm phần mềm mạng thần kinh có lợi thế. Cải tiến
dần là một phương tiện để khảo sát tỉ mỉ không gian véc tơ của những nút ẩn và tìm ra cách
biến đổi tuyến tính hoặc phi tuyến tính hiệu quả 5. Các nhà khoa học trong lĩnh vực trí thông
minh nhân tạo xem tính năng này như là tiềm năng cho các mô hình mạng thần kinh nhân tạo
để tìm hiểu, qua việc nhận ra một tập hợp trọng số phức tạp mà chúng ta không bao giờ có thể
xác định được từ kinh nghiệm.
Trong khi mạng thần kinh đầu vào đa lớp tương tự với phân tích hồi qui và phân tích biệt số
trong việc xử lý với các quan sát trong đó các dữ liệu phân tích có sẵn, mạng thần kinh tự tổ
chức (Self-organizing neural networks) tương tự với kỹ thuật phân cụm được sử dụng khi
không có dữ liệu phân tích. Mục đích là để phân loại dữ liệu để tối đa hóa tính tương tự của
các kiểu mẫu trong cụm và tối thiểu hóa tính tương tự của các mẫu của các cụm khác nhau.
Bản đồ đặc trưng tự tổ chức Konohen được phát triển để phát hiện các đặc trưng của tập hợp
dữ liệu có khối lượng lớn 6.
Ví dụ ứng dụng Mạng thần kinh
Giả sử tổ chức cho vay và tiết kiệm có nhiều hồ sơ xin vay cần xử lý để phê duyệt. Quyết định
này được lặp đi lặp lại và tốn kém thời gian, nỗ lực ra quyết định cho vay phải công bằng đối
với người xin vay và phải giảm được rủi ro cho người cho vay. Quy trình chung áp dụng
mạng thần kinh đã được Klimasauskas đưa ra (1991)7. Chúng ta sẽ sử dụng quy trình này
trong ví dụ sau.
1. Thu thập dữ liệu: Tất cả các dữ liệu có sẵn liên quan để ra quyết định sẽ được thu thập.
Bao gồm giới tính, tình trạng hôn nhân, số lượng trẻ em phụ thuộc, nghề nghiệp, thu nhập
hàng tháng, chi phí hàng tháng, có sở hữu nhà, tài khoản gửi ngân hàng không kỳ hạn, tài
khoản tiết kiệm, thẻ tín dụng, và lịch sử của các khoản thanh toán trên tất cả các khoản cho
vay trong 12 tháng qua. Các dữ liệu phân loại này cần phải được gạn lọc kỹ để chỉ các biến
hợp lệ được xem xét.
2. Tách dữ liệu thành tập dữ liệu phân tích và dữ liệu kiểm tra: Tập hợp dữ liệu cần được
tách thành hai phần quan trọng. Một phần của dữ liệu được sử dụng cho các mạng thần kinh
để "học". Đây là những dữ liệu dùng để điều chỉnh trọng số của các cung vào và trọng số của
các cung từ các nút ở lớp giữa đến các nút kết quả cho đến khi chúng phù hợp với các trị số
của biến kết quả với độ chính xác đủ lớn. Tập dữ liệu phân tích nên có ít nhất 100 quan sát,
mặc dù lượng dữ liệu này có thể không luôn luôn có sẵn.
Phần khác của dữ liệu cần phải được để dành như một tập kiểm tra. Tập kiểm tra này cần đủ
lớn để cho một kết quả đúng đắn theo cách thức của mạng thần kinh. Quy mô của tập dữ liệu
kiểm tra nên ít nhất là 100 quan sát là phù hợp, mặc dù lấy mẫu thống kê thường dựa trên 50,
hoặc thậm chí 30 quan sát.
3. Chuyển đổi dữ liệu thành những dạng dữ liệu đầu vào thích hợp của mạng: Mạng thần
kinh đòi hỏi dữ liệu kiểu số. Nếu dữ liệu nguyên thủy là định tính chẳng hạn như tình trạng
hôn nhân gia đình hay nghề nghiệp, cần phải mã hóa thành những con số (mỗi nhóm được gán
bằng một con số, con số này không có ý nghĩa hơn kém). Nhược điểm là các kết quả có thể rất
nhạy cảm với cách mã hóa. May mắn là phần mềm khai thác dữ liệu thực hiện được việc này,
do đó người sử dụng không cần phải chuyển đổi. Để hướng dẫn, chúng tôi chứng minh cách
thức mã hóa như sau.
Đối với dữ liệu đầu vào, như tình trạng hôn nhân gia đình, mỗi phân loại được gán một trị số
cụ thể ví dụ như người độc thân = 1, người đã kết hôn = 2, người góa = 3, và người đã li dị =
4. Mỗi một phân loại này được gán vào một biến đầu vào, với các giá trị là 0 hoặc 1 (bằng 1,
nếu biến này phù hợp, ngược lại là 0). Chỉ có một trong bốn biến đầu vào này (của tình trạng
hôn nhân gia đình) có trị số là 1 cho một quan sát cụ thể.
Đối với các biến như nghề nghiệp, cũng tương tự như vậy, tuy nhiên các nghề nghiệp thực tế
cần được gom lại vào một số lượng nhóm ít hơn cho hợp lý. Đối với các biến với câu trả lời
có/không (2 trạng thái), các quan sát ở trạng thái có được gán trị số là 1, và trạng thái không
được gán trị số là 0.
Các dữ liệu bằng số (định lượng) phải được thu nhỏ trong khoảng 0-1. Như thu nhập hàng
tháng và chi phí hàng tháng có thể được phân chia, hoặc có thể được chuyển đổi thành các
phạm vi biến thiên (range), và mỗi phạm vi được gán một trị số.
4. Lựa chọn, phân tích, và kiểm tra mô hình mạng: nhiều cấu hình mạng tùy chọn có thể
được sử dụng, phụ thuộc vào phần mềm mạng thần kinh. Các tùy chọn bao gồm số nút ở lớp
giữa (và kể cả số lượng các lớp giữa), những hàm chuyển đổi, các thuật toán học (thuật toán
phân tích). Có quá nhiều nút ở lớp giữa sẽ làm cho mạng thần kinh ghi nhớ dữ liệu đầu vào,
mà không cần học/phân tích một kiểu mẫu tổng quát để phép phân tích chính xác các dữ liệu
mới. Quá ít nút ở lớp giữa lại cần thêm thời gian để chương trình học/phân tích, và kết quả là
mô hình ít chính xác hơn. Thông thường tốt nhất là nên bắt đầu với tài liệu hướng dẫn của
phần mềm mạng thần kinh mà bạn sử dụng, trong đó sẽ giải thích những tùy chọn có sẵn. Hầu
hết chương trình đều xác lập tùy chọn mặc định là những lựa chọn khá hợp lý.
Cũng có nhiều thông số cần thiết lập cho mỗi bài toán. Số lượng biến đầu vào cũng phụ thuộc
vào dữ liệu, gần giống như những biến độc lập trong một hình hồi qui, sẽ tăng lên do việc sử
dụng các biến 0-1 để miêu tả các biến đầu vào phân loại như đã mô tả ở trên. Số lượng biến
đầu ra bằng với số lượng phân loại của biến phụ thuộc. Độ chấp nhận (tolerance) cho việc
học/phân tích cũng thường được thiết lập. Một tỉ lệ rất cao của tập hợp dữ liệu phân tích cần
được phân loại chính xác làm cho mạng thần kinh phải mất một thời gian rất dài để học. Mặt
khác, nếu độ chấp nhận tương đối thấp thì mạng sẽ học nhanh chóng, nhưng kết quả không
hữu dụng cho lắm. Một cách tiếp cận là bắt đầu với một độ chấp chận rất cao, và nếu bạn phải
chờ quá lâu, hãy đặt độ chấp nhận thấp xuống một chút và khởi động lại. Nếu như bạn cần kết
quả gấp thì thiết lập một mức độ chấp nhận hơi thấp một chút.
Một khi mạng thần kinh phân loại đúng tập dữ liệu phân tích ít nhất ở độ chấp nhận tối thiểu
đã được xác định, nó có thể được kiểm tra trên phần của tập dữ liệu giữ lại cho mục đích kiểm
tra này. Nếu mô hình thực hiện ít chính xác hơn mong muốn, có thể thêm biến mới hoặc quan
sát mới. Một vài biến ở ít quan trọng có thể bị xóa, mặc dù xóa bỏ các biến này thường sẽ
không cải thiện được sự tương thích.
Các bước từ 1 đến 4 được lặp đi lặp lại khi cần thiết, cho đến khi đạt được độ chấp nhận quy
định.
5. Áp dụng mô hình mạng thần kinh: một khi mô hình phân loại thành công phần tập dữ
liệu kiểm tra, nó có thể được sử dụng vào vấn đề thực tế. Theo dõi tỷ lệ thành công của mô
hình trên dữ liệu thực tế, và nếu hiệu suất này ít hơn mong muốn, cần phải xây dựng một mô
hình mới.
MẠNG THẦN KINH TRONG KHAI THÁC DỮ LIỆU
Mạng thần kinh nhân tạo là dạng phổ biến nhất của mô hình khai thác dữ liệu. Chúng vô cùng
hấp dẫn bởi vì chúng có chấp nhận dữ liệu mà không cần một ước lượng mô hình ban đầu.
Điều này không có nghĩa là chúng được áp dụng một cách tốt nhất bằng cách tự động cho
phép chúng hoạt động trên các dữ liệu mà không có thiết kế mô hình. Tuy nhiên, mô hình này
là một bước tiến dài về ý tưởng máy tính có thể tự phát sinh ra các mô hình dự đoán.
Các ứng dụng mạng thần kinh trãi rộng hầu hết trong các hoạt động khai thác dữ liệu, ngoại
trừ hệ thống dựa vào nguyên tắc được áp dụng khi giải thích về kết quả mô hình được nhấn
mạnh, và các hoạt động khai thác dữ liệu có tích cách khám phá của phân tích rổ hàng mua.
Một trong nhiều ứng dụng của mạng thần kinh là kiểm soát gian lận. Trong lĩnh vực chăm sóc
sức khỏe 8, bảo hiểm xe 9, và những lĩnh vực khác, mọi người liên tục cố gắng lừa gạt các hệ
thống bảo hiểm. Phân tích mạng thần kinh đối với việc sử dụng thẻ tín dụng là một ứng dụng
khai thác dữ liệu cổ điển (bao gồm cả vay ngân hàng, vay mua nhà, vay mua ô tô, và rất nhiều
các biến thể khác)10. Mạng thần kinh cũng đã được áp dụng cho kinh doanh trên thị trường
chứng khoán, kinh doanh điện, và rất nhiều môi trường giao dịch khác. Vấn đề chung là phân
loại trường hợp mới theo các dữ liệu đo đạc có sẵn vào một tập hợp các nhóm, như là trả nợ
đúng hạn, trả nợ trễ hạn, hoặc không trả nợ.
Mạng thần kinh nhân tạo hoạt động giống như các mô hình hồi qui, ngoại trừ chúng thử nhiều
hệ số khác nhau để phù hợp với tập dữ liệu phân tích cho đến khi chúng đạt được một sự
tương thích tốt như là người lập mô hình định rõ. Mô hình mạng thần kinh nhân tạo có các lợi
ích tăng thêm của việc xem xét tương tác giữa các biến, làm cho nó có khả năng ước lượng dữ
liệu phân tích dựa trên các trị số của biến độc lập khác. (Điều này cũng có thể được thực hiện
bằng hồi qui, nhưng sẽ dẫn tới việc khối lượng tính toán rất lớn).
CÁC ỨNG DỤNG CỦA MẠNG THẦN KINH TRONG KINH DOANH
Mạng thần kinh là một công cụ mô hình hóa cơ bản để dự đoán trong khai thác dữ liệu. Vì
vậy, nó được sử dụng rộng rãi, nhưng thường là dùng kết hợp với các mô hình dự đoán khác,
đặc biệt là các hình thức mô hình hồi quy khác nhau đã được mô tả trong chương 6. Ở đây
chúng ta xem xét hai ứng dụng cụ thể của mạng thần kinh trong khai thác dữ liệu ứng dụng
trong kinh doanh.
Mô hình mạng thần kinh cho dự đoán phá sản

Phân tích tính ổn định tài chính của các công ty đã từ lâu là một vấn đề quan trọng trong kế
toán. Giám sát hiệu quả tài chính của doanh nghiệp rất hữu ích trong việc nhận diện các vấn
đề nội bộ, đánh giá đầu tư, và kiểm toán. Một phương pháp phổ biến là cố gắng dự đoán khả
năng công ty phá sản sử dụng phân tích biệt số đa biến với các tỷ số tài chính. Phân tích biệt
số phân lớp các đối tượng vào trong những nhóm phân biệt trên cơ sở hàm tuyến tính. Phương
pháp này giả sử rằng những biến dùng để phân biệt có phân phối chuẩn chung, một giả định
không phải lúc nào cũng đúng trong thực tế.
Các mô hình mạng thần kinh đã được ứng dụng thành công cho một số quyết định kinh doanh,
gồm có: đánh giá hồ sơ vay, khả năng trả được nợ của người nộp đơn xin vay thế chấp, ngăn
chặn gian lận thẻ tín dụng, và xác nhận hiệu lực của chữ kí ngân hàng. Wilson và Sharda đã
phát triển một mô hình mạng thần kinh để tiên đoán sự phá sản và so sánh hiệu quả của mô
hình này với phân tích biệt số 11.
Mô hình mạng thần kinh đã được cung cấp những dữ liệu giống như trong nghiên cứu dùng
phân tích biệt số đa biến sử dụng 5 tỷ số tài chính đã được công bố . Các tỷ số này là vốn lưu
động / tổng tài sản, lợi nhuận giữ lại / tổng tài sản, lợi nhuận trước khi trả lãi và thuế / tổng tài
sản, giá trị thị trường của vốn chủ sở hữu / tổng nợ, và doanh số / tổng tài sản. Dữ liệu được
thu thập theo những tỷ số này cho các công ty đang hoạt động hoặc phá sản trong thời kì 1975
– 1982, lấy từ cuốn Cẩm nang Công nghiệp của Moody. Có 129 công ty trong bộ dữ liệu này
gồm có 65 công ty đã phá sản trong khoảng thời gian đó. Tiên đoán phá sản đã được thực hiện
khoảng một năm trước khi xảy ra sự phá sản.
Để kiểm tra sự chính xác của mô hình phân tích biệt số và mạng thần kinh, tập dữ liệu được
chia làm 2 phần: phần đầu tiên của dữ liệu được sử dụng để xây dựng mô hình, phần thứ hai
được sử dụng để kiểm tra mô hình. Việc này được thực hiện lặp lại, sử dụng phương pháp lấy
mẫu để chia 129 quan sát vào trong nhóm thứ nhất hoặc nhóm thứ hai. Tỉ lệ những trường
hợp vỡ nợ hoặc không vỡ nợ được kiểm soát cho cả 2 nhóm. Có tổng cộng 180 cặp tập dữ
liệu phân tích và dữ liệu kiểm tra được lấy từ dữ liệu gốc. Các công ty không được bao gồm
trong cả hai nhóm trong cùng một phân tích.
Đối với mỗi cặp trong 180 cặp dữ liệu, tập dữ liệu phân tích được sử dụng để xây dựng mô
hình. Chương trình SYSTAT được sử dụng cho phân tích biệt số. Chương trình
BRAINMAKER được sử dụng cho mô hình mạng thần kinh. Đối với mỗi mạng được xây
dựng, 5 tế bào thần kinh đầu vào (mỗi tế bào cho một biến), 10 tế bào ở lớp giữa, và 2 tế bào
đầu ra (một tế bào cho mỗi phân loại của biến đầu ra) được sử dụng. Thuật toán thử nghiệm
cải tiến dần (heuristic backpropogation) được sử dụng để bảo đảm độ hội tụ. Tất cả những
công ty trong mỗi bộ dữ liệu trong 180 bộ dữ liệu phân tích được phân lớp một cách chính xác.
Phần còn lại của từng bộ dữ liệu đã được sử dụng để kiểm tra độ chính xác của mô hình mạng
thần kinh và mô hình phân tích biệt số. Ba cách giải quyết được ứng dụng, phản ánh những tỷ
số khác nhau của dữ liệu phá sản và không phá sản cho mỗi phần của từng bộ dữ liệu. Trong
mỗi kết hợp của 9 sự kết hợp của những tỷ số này, mô hình mạng thần kinh đã có tỷ lệ phân
lớp chính xác tốt hơn mô hình phân tích biệt số. Những chênh lệch này có ý nghĩa ở mức 0.05
trong 7 / 9 sự kết hợp.
Khai thác dữ liệu để chọn khách hàng mục tiêu

Quản trị quan hệ khách hàng (CRM) là 1 vấn đề trọng tâm của marketing hiện đại. Mục đích
của việc quản lý mối quan hệ khách hàng là để phát triển và duy trì những khách hàng đem lại
lợi nhuận cho công ty. Khai thác dữ liệu là 1 công cụ quý giá hỗ trợ cho CRM, nhận biết
khách hàng nào cần nhắm tới dựa trên có giá trị tương lai dự đoán của từng khách hàng đối
với công ty.
Drew và các tác giả (2001) đã phân tích các phương pháp khác nhau để ước lượng hàm rủi ro
của khách hàng (khả năng rời bỏ công ty, hay rời bỏ dịch vụ) 12. Những phương pháp này
cung cấp cho ban giám đốc những thước đo Lợi ích của Giá trị suốt đời (Gain in Lifetime
Value – GLTV), một chỉ tiêu mở rộng của giá trị suốt đời truyền thống. Giá trị suốt đời truyền
thống được tính bằng cách nhân doanh số hàng tháng với xác suất khách hàng sẽ không rời bỏ,
trừ đi chi phí của công ty để duy trì khách hàng. GLTV lượng hóa ảnh hưởng tài chính của
các hoạt động của công ty để duy trì khách hàng cho kinh doanh trong tương lai. Khai thác dữ
liệu cung cấp hiểu biết rõ ràng về quan hệ khách hàng và cho phép phân khúc đám đông
khách hàng.
Mô hình mạng thần kinh được áp dụng để ước lượng hàm rủi ro cho từng khách hàng. Kỹ
thuật tiêu chuẩn để thực hiện việc này là hồi qui rủi ro theo tỷ lệ cổ điển, nhưng phương pháp
đó rất khó áp dụng trong trường hợp này. Mô hình mạng thần kinh cung cấp một phương tiện
để ước lượng tốt hơn rủi ro và duy trì khách hàng. Sự duy trì được mô hình hóa với dữ liệu số
khách hàng dưới dạng biến số và một biến kết thúc dịch vụ dưới dạng biến nhị phân.
Mô hình mạng thần kinh có tính không ổn định ở mức độ cao. Nếu điều kiện mới được áp
dụng như là khuyến mãi, mô hình mạng thần kinh sẽ thay đổi mạnh. Chúng ta cần sử dụng mô
hình thống kê truyền thống làm cơ sở để so sánh phát hiện ra những rủi ro nhằm đạt được mô
hình tốt hơn khi phân tích theo thời gian [Có một nhu cầu đối với mô hình thống kê truyền
thống để vạch ranh giới cho những rủi ro và đạt được mô hình khi phân tích theo thời gian].
Dữ liệu thu thập từ bộ phận mạng điện thoại di động của một tập đoàn viễn thông lớn ở Mỹ.
Kho dữ liệu của họ chứa đựng dữ liệu về cước phí, cách sử dụng và thông tin cá nhân về
khách hàng. Kho dữ liệu được cập nhật hàng tháng với thông tin tóm tắt, bao gồm tính nhận
diện của những khách hàng đã hủy bỏ dịch vụ. Có năm loại dữ liệu được rút ra:
1. Dữ liệu về thanh toán, bao gồm số dư kỳ trước, phí truy cập, số phút sử dụng, phí
dịch vụ gia tăng, phí cầu nối cuộc gọi, và phí sử dụng các tùy chọn.
2. Dữ liệu về sử dụng, bao gồm số cuộc gọi, thời gian sử dụng cho các cuộc gọi nội hạt,
cuộc gọi có tính phí dịch vụ thêm, giờ cao điểm, và ngoài giờ cao điểm.
3. Dữ liệu về thuê bao, bao gồm số tháng sử dụng dịch vụ, loại gói cước, loại hợp đồng,
ngày, và thời gian của hợp đồng.
4. Bỏ dịch vụ, một biến dạng nhị phân (flag) chỉ ra khách hàng đã hủy bỏ dịch vụ hay
không
5. Những dữ liệu khác, bao gồm thời gian, lợi ích hiện tại và trước đó đối với công ty, và
lựa chọn đặc biệt.
Một mẫu khoảng 21,500 thuê bao trong tháng 4 năm 1998 được sử dụng để làm mô hình
trong thời kỳ từ 1 đến 36 tháng. Mô hình được xây dựng từ 15.000 người đăng ký trong mẫu
này. Phần mẫu còn lại được dùng làm mẫu kiểm tra. Mô hình mạng thần kinh cho thấy đã
cung cấp mô hình của việc giữ khách hàng tốt hơn mô hình thống kê cổ điển.
Những ứng dụng đầu tiên của mạng thần kinh trong kinh doanh tập trung vào sự phân lớp, với
biến đầu ra phân loại (thông thường là nhị phân). Ví dụ này cung cấp một phương pháp mở
rộng cách thức sử dụng mạng thần kinh để hỗ trợ cho một vấn đề kinh doanh quan trọng, cung
cấp việc phân hạng các loại.
ỨNG DỤNG CỦA MẠNG THẦN KINH CHO BỘ DỮ LIỆU LỚN
Đối với hồi qui bình phương bé nhất thông thường, có thể sử dụng cả SAS và Excel. Cả hai
chương trình đều cho ra những mô hình giống nhau. Hạn chế duy nhất khi sử dụng hồi qui
trong Excel là chỉ được tối đa 16 biến độc lập. SAS có khả năng thực hiện hồi qui bình
phương bé nhất thông thường (giống như Excel) và hồi qui cả hồi qui logistic.
Dữ liệu gian lận bảo hiểm

Trị số chuẩn hóa (giữa 0 và 1) được sử dụng, cho dù là dữ liệu liên tục, hoặc thậm chí dữ liệu
phân loại. Chuẩn hóa dữ liệu chuyển đổi dữ liệu về dạng thống nhất vì vậy thang đo khác
nhau không còn là vấn đề. Cần chuẩn hóa nếu các biến có thang đo hoàn toàn khác nhau. Các
kết quả hồi qui sẽ giống nhau giữa khi chạy trên dữ liệu đã chuẩn hóa và khi chạy trên dữ liệu
gốc (dữ liệu chuẩn hóa là liên tục, giống như dữ liệu gốc - chỉ là chuyển đổi). Để kiểm tra,
bạn có thể chạy mô hình giữa hai dữ liệu, và xem R bình phương và trị số kiểm định thống kê
t có như nhau không. Các hệ số sẽ khác nhau khi dùng dữ liệu được phân loại vì những chi
tiết đã bị mất đi. Vì vậy, bạn sẽ có các kết quả khác nhau giữa hồi qui qua dữ liệu gốc liên tục
và dữ liệu phân loại.
Dữ liệu này được giải quyết với bộ công cụ Mạng Thần Kinh Mathlab, bằng cách sử dụng
một thuật toán cải tiến dần (backpropogation). Hai thao tác được thực hiện: một với 5.000
bước (epochs), một với 20.000 bước. Để đạt được một sự tương thích tốt hơn, 60 trường hợp
không có gian lận và 60 trường hợp gian lận được sử dụng cho việc phân tích xây dựng mô
hình. Các dữ liệu phân tích đã có sự tương thích khá tốt, với các sai sót cân đối, và một tỷ lệ
phân loại chính xác là 109/120 = 0,91. Kết quả kiểm tra mô hình ở Bảng 7.1. Mô hình này đã
phân loại chính xác 59% các trường hợp gian lận, và 68% các trường hợp không gian lận, tính
chung tỷ lệ phân loại chính xác là 68% (chấp nhận các trường hợp trùng lắp nhau).
Bảng 7.1 Ma trận trùng - dữ liệu kiểm tra, mạng thần kinh, 5.000 bước
THỰC TẾ Có gian lận theo Không gian lận theo TỔNG CỘNG
mô hình mô hình
Gian lận 13 9 22
Đúng 1546 3311 4857
Tổng cộng 1559 3320 4879
Khi số bước mạng thần kinh đã được tăng lên đến 20.000, thì mô hình phân tích sẽ phù hợp
hơn, với một tỷ lệ phân loại chính xác 113/120 = 94%. Tuy nhiên, sự phù hợp trên dữ liệu
kiểm tra thì tệ hơn, xem Bảng 7.2.
Bảng 7.2 Ma trận trùng - dữ liệu kiểm tra, mạng thần kinh, 20.000 bước
mô hình mô hình
Gian lận 10 12 22
Đúng 2145 2712 4857
Tổng cộng 2155 2724 4879
Ở đây, phần lớn các trường hợp gian lận thực sự đã bị phân loại sai, trong khi đó 44% các
trường hợp không có gian lận lại bị xác định là gian lận. Việc tăng số bước đã không cải thiện
được mô hình.
Mô hình mạng thần kinh Clementine, sử dụng 4.000 quan sát phân tích trên các biến liên tục
về tuổi, số tiền đòi bồi thường, giới tính, vé phạt, và các lần đòi hỏi hiểm trước đó, với dữ liệu
phân loại về có luật sư cùng với biến kết quả nhị phân, đã đưa ra kết quả một cách dễ dàng và
đã phân lớp tất cả các trường hợp đều là gian lận. Vì vậy, nó chính xác là 0.978, mặc dù nó đã
bỏ sót tất cả những trường hợp gian lận trong thực tế. Điều này chứng minh cho giá trị của dữ
liệu cân bằng (cũng được thực hiện trong Clementine).
Dữ liệu người xin việc

Dữ liệu hồ sơ xin việc có thể được mã hóa như trong Bảng 6.20, cung cấp các biến liên tục có
trị số từ 0 đến 1 cho năm biến độc lập. Có bốn trị số của biến kết quả, không phải là trị số một
hàm liên tục. Chúng ta sử dụng 400 quan sát đầu tiên để xây dựng mô hình, 100 quan sát cuối
cùng để kiểm tra mô hình.
Công cụ mạng thần kinh cải tiến dần cũng được ứng dụng cho dữ liệu này. Tập dữ liệu phân
tích bao gồm 90% quan sát. Thuật toán mạng thần kinh đã được chạy qua 20.000 bước. Tỷ lệ
phân loại chính xác của mô hình phân tích là 77%. Kết quả kiểm tra ở Bảng 7.3.
Bảng 7.3 Ma trận trùng của mạng thần kinh thuật Mathlab áp dụng cho dữ liệu xin việc
Rất thấp Tối thiểu Trung Cao Tổng

bình
Thực tế rất thấp 3 7 3 0 13
Thực tế ít tối thiểu 4 3 9 1 17
Thực tế trung bình 1 1 6 0 8
Thực tế cao 2 0 0 0 2
Tổng 10 11 18 1 50
Ở đây, mô hình phân lớp chính xác 12 trong số 40 trường hợp kiểm tra cho tỷ lệ phân lớp
chính xác là 0,30. Tuy nhiên, đây là với bốn kết quả có thể xảy ra, và vì vậy không tệ như
30% khi chỉ có hai kết quả.
Chạy bộ dữ liệu phân tích của 450 trường hợp trên Clementime và kiểm tra mô hình trên 200
trường hợp cuối cùng, cho ra ma trận trùng ở Bảng 7.4.
Bảng 7.4 Ma trận trùng của mạng thần kinh Clementime áp dụng cho dữ liệu xin việc
Rất thấp Tối thiểu Trung Cao Tổng
bình
Thực tế rất thấp 10 9 6 0 25
Thực tế ít tối thiểu 11 20 28 0 59
Thực tế trung bình 0 18 83 0 101
Thực tế cao 0 0 15 0 15
Tổng 21 47 132 0 200
Trong trường hợp này, tỷ lệ phân loại đúng cao hơn nhiều, bằng 0.565. Mô hình này chưa bao
giờ sai quá một lần phân lớp. Tuy nhiên, nó không có sự bảo đảm nào là nó có thể phân lớp
kết quả một cách tốt nhất.
Dữ liệu xin vay

Thuật toán mạng thần kinh cải tiến dần đã được ứng dụng để phân tích 250 quan sát đầu tiên.
Đây là 250 trường hợp khác với các trường hợp đã sử dụng trong hồi qui logistic, cung cấp
cho mô hình mạng thần kinh dữ liệu cân bằng hơn giữa các trường hợp gian lận và trường hợp
không gian lận. Ba thời gian chạy mô hình khác nhau đã được sử dụng. Mô hình thứ nhất sử
dụng 2.000 bước, và phân loại chính xác 246 trên 250 trường hợp (98%). Sử dụng 5.000 bước,
mô hình phân lớp chính xác 247 trường hợp , trong khi sử dụng 10.000 bước thì phân lớp
chính xác 248 trường hợp. Cả ba đều đã phân lớp chính xác tất cả các trường hợp phân tích có
kết quả là không gian lận. Tuy vậy, kết quả kiểm tra (trên 400 quan sát còn lại ) thì trái ngược
với kêt quả xây dựng mô hình. Tỉ lệ phân loại tốt nhât của 3 mô hình này là mô hình với 2000
bước, thể hiện trong Bảng 7.5.
Mô hình này có tỉ lệ phân loại chính xác là 317/400, hay 79%. Tỉ lệ phân loại chính xác cho
các trường hợp gian lận thực tế là 40% .
Bảng 7.5 Ma trận trùng-dữ liệu kiểm tra vay tiền, mạng thần kinh, 2000 bước
mô hình mô hình
Gian lận 6 9 15
Đúng 74 311 385
Tổng cộng 80 320 400
CÁC PHẦN MỀM THỰC HIỆN MẠNG THẦN KINH

Nhiều phần mềm khai thác dữ liệu có sẵn chức năng thực hiện kỹ thuật mạng thần kinh. Đó là
hộp đen theo nghĩa phần lớn việc điều khiển thuộc bên trong nội bộ của phần mềm, mặc dù
một số trường hợp cho phép người sử dụng thay đổi các thông số như số lớp ẩn. Ngoài ra trên
mạng cũng liệt kê nhiều phần mềm mạng thần kinh. Trang web www.kdnuggets.com có một
khu vực về phần mềm, trong đó có một phần là phần mềm mạng thần kinh. Thị trường năng
động này có cả những phần mềm có thể download miễn phí.
Có ít nhất 3 loại phần mềm mạng thần kinh theo mục đích của chúng ta. Một vài phần mềm
có khả năng cung cấp mô hình mạng thần kinh tổng quát. Cũng có một số phần mềm được
xây dựng theo một vấn đề cụ thể. Tóm lại, mô hình mạng thần kinh hoặc được tích hợp trong
phần mềm tổng quát như các kỹ thuật khác như trong phần mềm thống kê, hoặc được xây
dựng trong phần mềm hệ thống chuyên gia.
Có thể sử dụng các sản phẩm phần mềm mạng thần kinh chung để xây dựng mạng thần kinh
cho bất cứ bộ dữ liệu nào được cung cấp (một khi dữ liệu được biến đổi phù hợp). Một vài
phần mềm cho phép người sử dụng nhập bất cứ dữ liệu nào với khả năng biến đổi dữ liệu
sang dạng cần thiết. Một số phần mềm khác cung cấp các bổ sung hiển thị hữu ích giúp người
thiết kế tạo ra mô hình, và giúp người dùng thấy được kết quả rõ hơn. Giá cả thay đổi trong
một phạm vi rộng, với một số phần mềm dưới 100$, và một vài phần mềm trong khoảng
2.000$. Nhiều hệ thống cho phép người dùng truy cập vào một số kiến trúc, như là cải tiến
dần (backpropogation) hay mạng học tập Kohonen. Cải tiến dần là một qui luật học tổng quát
ứng dụng vào các mạng với các lớp giữa. Các trọng số đầu vào ban đầu được đặt ở một giá trị
nào đó (ví dụ như +1), và các trọng số khác là ngẫu nhiên. Với mỗi kiểu đầu vào, trọng số
được điều chỉnh tùy theo mức độ sai số. Mạng Kohonen (được dùng trong phân tích cụm)
gồm 2 lớp, nhưng có liên kết nội bộ bên trong các lớp. Các trọng số ngẫu nhiên ban đầu phải
được chuẩn hóa. Sau đó mạng sẽ dùng cách phù hợp nhất để điều chỉnh các trọng số này. Các
kiến trúc khác cũng có sẵn.
Phần mềm mạng thần kinh có trong một số phần mềm tổng quát hơn, như là phần mềm Owl
của Network Cybernetics, đó chính là một thư viện mạng cho phép người sử dụng mã hóa
mạng thần kinh của chính mình.
Mạng thần kinh đã chứng tỏ sự cuốn hút ở một số địa điểm kinh doanh, nơi có một hệ thống
phức tạp vào giờ cao điểm. Mạng thần kinh cũng còn được ứng dụng trong đấu thầu xây dựng,
cho phép người sử dụng nhập dữ liệu trên kinh nghiệm lần đấu thầu trước. Sau đó phần mềm
sẽ xuất ra một mức đấu thầu với lợi nhuận tốt nhất có thể.
TÓM TẮT
Mạng thần kinh có điểm mạnh rất quan trọng là chúng có thể được ứng dụng vào hầu hết các
ứng dụng khai thác dữ liệu, và ít đòi hỏi việc xây dựng mô hình. Chúng cung cấp kết quả tốt
trong các ứng dụng phức tạp, đặc biệt khi có tương tác phức tạp giữa các biến trong dữ liệu.
Mạng thần kinh có thể thực hiện với cả dữ liệu liên tục và dữ liệu phân loại. Nhiều phần mềm
thực hiện mạng thần kinh cũng có sẵn.
Tuy nhiên, phương pháp này cũng có một số điểm yếu. Ví dụ, dữ liệu cần được chuyển đổi về
dạng phù hợp, nhưng đó không phải là một khuyết điểm chính. Vấn đề cơ bản là kết quả
mạng thần kinh có khuynh hướng có hiệu quả hộp đen, theo nghĩa là không có giải thích cho
mô hình kết quả. Các mạng thần kinh cũng có khuyết điểm kỹ thuật là khả năng quy về một
giải pháp kém hơn. Tuy nhiên, khuyết điểm kỹ thuật này là có thể phát hiện ra khi áp dụng
vào bộ dữ liệu kiểm tra.
Do đó, mạng thần kinh rất hấp dẫn đối với các bài toán mà không cần kết luận mang tính giải
thích. Đó thường là trong trường hợp các bài toán phân lớp và dự đoán. Không nên áp dụng
mạng thần kinh với số lượng biến quá lớn. Trong trường hợp này ta nên sử dụng cây quyết
định để giảm bớt số lượng các biến. Cũng có thể áp dụng các thuật toán di truyền (Genetic
algorithms) để cải thiện hiệu quả của mạng thần kinh.
Chú thích thuật ngữ

Backpropogation (Cải tiến dần): Quy tắc học thường được dùng trong các mạng thần kinh,
trong đó kết quả của những vòng phân tích trước trước được dùng để điều chỉnh mô hình
trong những vòng phân tích sau.
Multilayered feedforward neural networks (Mạng thần kinh đầu vào đa lớp): Cấu trúc
chung của mô hình mạng thần kinh, với các lớp ẩn với các cung kết nối dữ liệu đầu vào qua
các lớp ẩn tới kết quả đầu ra.
Neural network (Mạng Thần kinh): Mô hình trí thông minh nhân tạo dựa trên điều chỉnh các
trọng số các cung của mô hình mạng để tối ưu hóa sự phù hợp với dữ liệu thực tế
Self-organizing neural networks (Mạng thần kinh tự tổ chức): Các mạng thần kinh có khả
năng điều chỉnh số lượng nhóm.
Bài tập
1. Hãy áp dụng thuật toán mạng thần kinh cho tập dữ liệu người nộp đơn xin việc. Dùng
250 quan sát đầu tiên như tập phân tích, và áp dụng mô hình xây dựng được cho 250
quan sát cuối cùng. Dùng dữ liệu chuẩn hóa, như cách chuyển đổi được mô tả trong
Bảng 6.33 trước. Nếu phần mềm khai thác dữ liệu có sẵn, hãy so sánh kết quả hồi qui,
hồi qui logistic, và mạng thần kinh. Xây dựng ma trận trùng cho tập dữ liệu này.
2. Hãy áp dụng thuật toán mạng thần kinh cho tập dữ liệu hồ sơ xin việc. Dùng 250 quan
sát đầu tiên làm tập phân tích, và áp dụng mô hình vào 250 quan sát cuối cùng. Hãy
dụng dữ liệu phân loại. Nếu phần mềm khai thác dữ liệu có sẵn, hãy so sánh kết quả
hồi qui, hồi qui logistic, và mạng thần kinh. Xây dựng ma trận trùng cho dữ liệu này.
3. Nếu phần mềm khai thác dữ liệu có sẵn, hãy áp dụng thuật toán mạng thần kinh cho
tập dữ liệu chuẩn hóa về hồ sơ xin vay. Dùng 500 quan sát đầu tiên làm tập phân tích
và áp dụng mô hình cho 100 quan sát cuối cùng. Dùng phần mềm khai thác dữ liệu có
sẵn hoặc dùng Excel nếu không có. Xây dựng ma trận trùng.
4. Nếu phần mềm khai thác dữ liệu có sẵn, hãy áp dụng mô hình mạng thần kinh cho dữ
liệu phân loại (dùng mã nhị phân cho các kết quả) của tập dữ liệu hồ sơ xin vay tiền.
Dùng 500 quan sát đầu tiên làm tập phân tích, và áp dụng mô hình cho 100 quan sát
cuối cùng. Dùng phần mềm khai thác dữ liệu nếu có sẵn hoặc dùng Excel nếu không
có. Xây dựng ma trận trùng. So sánh các ma trận trùng này với các kết quả từ Bài tập
số 3.
5. Nếu phần mềm khai thác dữ liệu có sẵn, hãy áp dụng thuật toán mạng thần kinh vào
tập dữ liệu gian lận bảo hiểm. Chuyển đổi bằng cách gán độ tuổi 20 hoặc nhỏ hơn là 0,
độ tuổi 50 hoặc lớn hơn là 1.0, và mỗi độ tuổi ở khoảng giữa bằng độ tuổi-20/30.
Tương tự cho giới tính ta có thể gán bằng hai giá trị là 0 hoặc 1. Chuyển đổi yêu cầu
đòi bồi thường bằng cách chia nó cho 5.000. Chuyển đổi số lượng vé phạt và các yêu
cầu đòi bồi thường trước đó bằng cách đặt 0 = 0 ; 1 = 0,5 và 2 (hoặc nhiều hơn) = 1.0.
Chuyển đổi có luật sư bằng cách gán “none”=0 và những thứ khác bằng 1. Dùng 1.000
quan sát đầu tiên làm tập phân tích và áp dụng mô hình để kiểm tra trên 1.000 quan sát
cuối cùng. Dùng phần mềm khai thác dữ liệu có sẵn. Xây dựng ma trận trùng.
6. Nếu phần mềm khai thác dữ liệu có sẵn, hãy so sánh các mô hình mạng thần kinh trên
dữ liệu chuẩn hóa và dữ liệu phân loại (bằng cách mã hóa biến đầu ra là 0 và 1) cho
tập dữ liệu gian lận bảo hiểm. Hãy sử dụng 1.000 quan sát đầu làm tập dữ liệu phân
tích để xây dựng mô hình và áp dụng mô hình này kiểm tra lại với 1.000 quan sát còn
lại. Hãy dùng phần mềm khai thác dữ liệu nếu có sẵn nếu không có thì dùng Excel.
Xây dựng ma trận trùng. So sánh các ma trận trùng của dữ liệu này với các kết quả của
Bài tập số 5.
7. Hãy áp dụng thuật toán mạng thần kinh cho bộ dữ liệu chi tiêu dùng của khách hàng
với mục đích nhận diện các nhóm người có tỉ lệ chi cho nhà hàng trên thu nhập: nhỏ
hơn 1%, 1 – 5 %, 5 – 10 % và trên 10%. Hãy dùng 12 biến đầu tiên (từ biến độ tuổi
đến biến churn - số dư thẻ tín dụng bị hủy năm ngoái) dưới dạng chuẩn hóa. Sử dụng
5.000 quan sát làm tập phân tích và kiểm tra lại mô hình trên 1.000 quan sát còn lại.
Sử dụng phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng.
8. Sử dụng tập dữ liệu chi tiêu dùng, áp dụng một mô hình mạng thần kinh nhận diện các
nhóm người có tỉ lệ chi tiêu cho thực phẩm trên thu nhập: ít hơn 1%, 1-5%, 5-10%, và
trên 10 %. Hãy dùng dữ liệu chuẩn của 12 biến đầu tiên (từ biến tuổi đến biến churn -
số dư thẻ tín dụng bị hủy năm ngoái) làm biến độc lập. Hãy dùng 5.000 quan sát làm
tập phân tích, kiểm tra lại mô hình trên 1.000 quan sát còn lại. Dùng phần mềm khai
thác dữ liệu nếu có. Xây dựng ma trận trùng.
9. Sử dụng tập dữ liệu chi tiêu dùng, áp dụng một mô hình mạng thần kinh để nhận diện
các nhóm người có tỉ lệ chi tiêu cho nhà ở trên thu nhập: ít hơn 10%, 10-30%, 30-50%,
và trên 50%. Hãy dùng dữ liệu chuẩn hóa cho 12 biến đầu tiên (từ biến tuổi đến biến
churn - số dư thẻ tín dụng bị hủy năm ngoái) làm biến độc lập. Dùng 5.000 quan sát
làm tập phân tích, và kiểm tra lại mô hình trên 1.000 quan sát còn lại. Sử dụng phần
mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng.
các nhóm người có tỉ lệ chi tiêu cho tiện ích trên thu nhập: ít hơn 1%, 1-5%, 5-10%,
và trên 10%. Hãy dùng dữ liệu chuẩn hóa cho 12 biến đầu tiên (từ biến tuổi đến biến
churn - số dư thẻ tín dụng bị hủy năm ngoái) làm các biến độc lập. Dùng 5.000 quan
sát làm tập phân tích, và kiểm tra lại mô hình trên 1.000 quan sát còn lại. Sử dụng
phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng.
các nhóm người có tỉ lệ chi tiêu cho sử hữu và vận hành xe ô tô trên thu nhập: ít hơn
1%, 1-5%, 5-10%, và trên 10%. Dùng dữ liệu chuẩn hóa cho 12 biến đầu tiên (từ biến
tuổi đến biến churn - số dư thẻ tín dụng bị hủy năm ngoái) làm các biến độc lập. Dùng
5.000 quan sát làm tập phân tích, và kiểm tra lại mô hình trên 1.000 quan sát còn lại.
Sử dụng phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng.
các nhóm người có tỉ lệ chi tiêu cho may mặc trên thu nhập: ít hơn 5%, 5-10%, 10-
20%, và trên 20%. Dùng dữ liệu chuẩn hòa cho 12 biến đầu tiên (từ biến tuổi đến biến
churn - số dư thẻ tín dụng bị hủy năm ngoái) làm các biến độc lập. Dùng 5.000 quan
sát làm tập phân tích, và kiểm tra lại mô hình trên 1.000 quan sát còn lại. Sử dụng
phần mềm khai thác dữ liệu nếu có. Xây dựng ma trận trùng.
các nhóm người có thỉ lệ chi cho giải trí trên thu nhập: ít hơn 1%, 1-5%, 5-10%, và
trên 10%. Dùng dữ liệu chuẩn hóa cho 12 biến đầu tiên (từ biến tuổi đến biến churn -
số dư thẻ tín dụng bị hủy năm ngoái) làm các biến độc lập. Dùng 5.000 quan sát làm
tập phân tích, và kiểm tra lại mô hình 1.000 quan sát còn lại. Sử dụng phần mềm khai
thác dữ liệu nếu có. Xây dựng ma trận trùng.
Kết chú
1
. P. Churchland, Matter and Consciousness, 8th printing, Cambridge, MA: Bradford Books/The MIT
Press, 1997, p.154.
. W. S. Sarle, “Neural Networks and Statistical Models,” Proceedings of the Nineteenth Annual SAS
2
Users Group International Conference, April 1994, pp. 1-13.

3
. K. A. Smith and J. N. D. Gupta, “Neural Networks in Business: Techniques and Applications for the
Operations Researchers,” Computers & Operations Research, volume 27, numbers 11-12, 2000, pp.
1023-1044.
4
. B. K. Wong, T. A. Bodnovich, and Y. Selvi, “Neural Network Applications in Business: A Review
and Analysis of the Literature (1988-1995),” Decision Support Systems, volume 19, 1997, pp. 301-320,
cited in Smith and Gupta, op. cit.
5
. Wong, Bodnovich, and Selvi, op. cit.
6
. T. Kohonen, Self-Organization and Associative Memory (NewYork: Springer, 1988).
7
. C. C. Klimasauskas, “Applying Neural Networks: Part I: An Overview of the Series,” PC AI,
January/February 1991, pp. 30-33.
8
. D. Pearson, “Instant Inspections,” CIO, volume 11, number 18, section 1, July 1, 1998, pp. 34-35.
9
. T. Goveia, “Short Circuiting Crime,” Canadian Insurance, volume 104. number 5, May 1999, pp.
16-17+.
10
. J. M. Donato, J. C. Schryver, G. C. Hinkel, R. L. Schmoyer, Jr., M. R. Leuze, and N. W. Grandy,
“Mining Multi-Dimensional Data for Decision Support,” Future Generation Computer Systems,
volume 15, 1999, pp. 433-441.
. R. L. Wilson and R. Sharda, “Bankruptcy Prediction Using Neural Networks,” Decision Support
11
Systems, volume 11, 1994, pp. 545-557.

. J. H. Drew, D. R. Mani, A. L. Betz, and P. Datta, “Targeting Customers with Statistical and Data-
12
Mining Techniques,” Journal of Service Research, volume 3, number 3, 2001, pp. 205-219.

DataMining - Chuong 7

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DataMining - Chuong 7

Uploaded by

Copyright:

Available Formats

Khai thác dữ liệu trong kinh doanh Chương 7

MẠNG THẦN KINH TRONG KHAI THÁC DỮ LIỆU

Nội dung chương 7:

Các biến đầu vào Lớp ẩn Các biến đầu ra

MẠNG THẦN KINH

Ví dụ ứng dụng Mạng thần kinh

MẠNG THẦN KINH TRONG KHAI THÁC DỮ LIỆU

Mô hình mạng thần kinh cho dự đoán phá sản

Khai thác dữ liệu để chọn khách hàng mục tiêu

ỨNG DỤNG CỦA MẠNG THẦN KINH CHO BỘ DỮ LIỆU LỚN

Dữ liệu gian lận bảo hiểm

Dữ liệu người xin việc

Rất thấp Tối thiểu Trung Cao Tổng

Dữ liệu xin vay

CÁC PHẦN MỀM THỰC HIỆN MẠNG THẦN KINH

Chú thích thuật ngữ

Users Group International Conference, April 1994, pp. 1-13.

Systems, volume 11, 1994, pp. 545-557.

You might also like