You are on page 1of 27

Khai thác dữ liệu trong kinh doanh Chương 5

CHƯƠNG 5

PHÂN TÍCH CỤM

Nội dung chương này:


- Mô tả khái niệm phân tích cụm
- Minh họa thuật toán chia cụm đại diện trong những trường hợp đơn giản
- Điểm lại các ứng dụng thực tế của mô hình cụm
- Thể hiện ứng dụng của mô hình cụm trên bộ dữ liệu lớn
- Minh họa sơ đồ mạng thông qua phần mềm Clementine trong phần phụ lục.

Thẻ tín dụng đã trở nên mật thiết với đời sống con người trong thế kỉ 21. Trong khi 40 năm
trước thẻ tín dụng rất hiếm được sử dụng thì giờ đây thật khó tưởng tượng việc kinh doanh mà
lại không có thẻ tín dụng. Việc sử dụng thẻ tín dụng làm công việc kinh doanh, và toàn bộ hệ
thống kinh tế (kể cả có dùng thẻ tín dụng vật lý hay không) hiện nay gắn bó chặt với kinh
doanh qua Internet, cho phép chúng ta mua mọi thứ trên khắp thế giới trong thời gian thực.

Cũng tương tự như với tài khoản điện thoại (đã thảo luận trong Chương 2), các công ty thẻ tín
dụng có nhu cầu giám sát các tài khoản về việc thanh toán (trả lại tiền vào thẻ). Sự không
thanh toán của một tài khoản vào ngày đến hạn thanh toán là một điều tồi tệ nhưng không có
nghĩa là hãng cấp phép cho thẻ tín dụng chấm dứt tài khoản đó. Nó khiến ngày càng nhiều
hãng kinh doanh có ý thức giữ thẻ tín dụng mở (tiếp tục tính lãi suất) hơn là đóng tài khoản
đó. Trên thực tế công ty thẻ tín dụng có sẵn rất nhiều cách thức xử lý, được sử dụng theo trật
tự lịch sự. Nếu một tài khoản trễ, một email nhắc nhở thân thiện sẽ được gởi đến người chủ tài
khoản chểnh mảng báo rằng đã đến hạn thanh toán. Điều này (việc trễ hạn thanh toán) thực ra
có thể là vì hiểu nhầm hoặc séc thực ra bị trễ trong quá trình chuyển tới công ty. Các hãng cấp
quyền cho thẻ tín dụng có thể tạo ra nhiều tiền nhờ sự trễ hạn thanh toán vì họ thường tính lãi
suất cao hơn. Nếu như họ dám chắc rằng sau cùng thì họ sẽ nhận được thanh toán, thì những
trường hợp có lợi nhất cho họ suy xét cho kỹ lại chính là những chủ thẻ tín dụng không trả
tiền đúng hạn. tuy nhiên có các tài khoản tiếp tục không được thanh toán tiền trong khoảng
thời gian gia hạn. Trong trường hợp này, bước kế tiếp sẽ là một cuộc điện thoại (đầu tiên là
một giọng nữ nhẹ nhàng, sau đó thay bằng một giọng nam nghiêm khắc hơn. Việc làm này
được tiếp thêm bằng một vài lá thư. Và những trường hợp cuối cùng có thể được đưa vào
trong danh sách của hãng, hoặc các tài khoản lớn để người đại diện cho pháp luật làm việc.
Cách xử lý càng gay gắt thì chi phí càng tốn kém, và tăng thêm rủi ro mất khách hàng có giá
trị. Việc phân tích cẩn thận tác động của các cách giải quyết khác nhau là cần thiết. Khai thác
dữ liệu cung cấp một công cụ cho phép các hãng cấp quyền cho thẻ tín dụng đo lường tác
động kỳ vọng của các phương án giải quyết.

Phân tích cụm thường được sử dụng như một công cụ phân tích ban đầu, cho phép các nhà
khai thác dữ liệu nhận diện các nhóm cơ bản trong dữ liệu. Nó thường bắt đầu bằng một thể
hiện đầu tiên của dữ liệu dưới dạng đồ thị, và cung cấp các phương tiện bằng số để mô tả kiểu
mẫu ẩn. Nó có thể là kiểu mẫu ẩn dưới việc thanh toán tài khoản thẻ tín dụng, như đã mô tả
trong một của những ứng dụng của chương này. Phân tích cụm vì thế là một loại mô hình,
nhưng là loại thường được ứng dụng trong tiến trình tìm hiểu tập dữ liệu.

Phân tích cụm bao gồm sự nhận diện các nhóm quan sát được đo lường thông qua các biến. Ở
đây chúng ta phân biệt giữa phân tích biệt số (các nhóm được chia như thành phần của tập dữ

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 68
Khai thác dữ liệu trong kinh doanh Chương 5

liệu và mục tiêu là để dự đoán từng quan sát là thành viên của nhóm nào) và phân tích cụm (ở
đây các cụm được xác định căn cứ trên dữ liệu và vì thế không được xác định trước, mục tiêu
là để tìm các đối tượng thuộc cùng nhóm với nhau thay vì dự đoán thành viên nhóm). Phân
tích cụm là một kỹ thuật không có giám sát, ở đây dữ liệu được khảo sát không tham chiếu
với một biến đối ứng nào. Vì thế đây là một ví dụ của học máy (machine learning - kiến thức
do kỹ thuật mang lại), trong đó giá trị của mô hình phân cụm nằm ở khả năng của nó phát
hiện được các nhóm dữ liệu đáng chú ý. Kỹ thuật này đòi hỏi tập dữ liệu phải đủ lớn để đạt
được ý nghĩa thống kê, nhưng ngược lại phải có nguy cơ là càng nhiều biến và những trị số
của các biến càng lớn, thì nhiệm vụ tính toán càng khó khăn. Một ứng dụng tiêu biểu là áp
dụng mô hình cụm lúc đầu tiên để nhận diện các phân khúc trong dữ liệu, sau đó sử dụng các
kết quả này trong phân tích dự đoán kế tiếp. Có một số kỹ thuật được sử dụng làm phân tích
cụm.

PHÂN TÍCH CỤM

Dạng chung nhất của phân tích cụm là thuật toán xác định số cụm. Nhưng cũng có trường hợp
số cụm được xác định trước. Phân hoạch (partitioning) được sử dụng để xác định các biến
phân loại mới dùng để chia dữ liệu thành một số xác định các vùng (ví dụ như phân tích cụm
k-means). Thông lệ chung là áp dụng phân tích nhân tố như một kĩ thuật tiền xử lý để có một
ý tưởng hợp lý về số cụm, cũng như để đưa ra cho người quản lý nhìn nhận về việc những
mục (“mục” ở đây có thể hiểu chính là các mục hỏi hay tức là các biến trong phân tích nhân
tố) nào nên đi cùng với nhau1. Đưa ra một con số cụ thể của số trung tâm (k), các quan sát cụ
thể của dữ liệu được phân vào các trung tâm đó với khoảng cách tối thiểu tới các quan sát. Có
nhiều mức độ của khoảng cách, mặc dù theo quy ước centroid (mỗi centroid có một giá trị
trung bình, trung vị…cho mỗi biến) của mỗi cụm được sử dụng như một trung tâm, và khoảng
cách bình phương là tối thiểu. Đó là dạng sử dụng phổ biến nhất của phân tích cụm trong khai
thác dữ liệu.

Phân tích cụm thường là kỹ thuật đầu tiên được áp dụng trong nghiên cứu khai thác dữ liệu,
và thường được các nhà khai thác dữ liệu sử dụng để phân khúc khách hàng, cho phép người
đại diện dịch vụ chăm sóc khách hàng áp dụng những đối sách khác nhau cho mỗi phân
khúc2. Nó cũng được áp dụng cho dịch vụ cho vay cầm cố nhà của ngân hàng3. Một ngân
hàng khám phá ra rằng có một cụm gồm khoảng một phần tư số khách hàng của họ. Phân tích
kỹ hơn cụm này họ thấy rằng các khách hàng này là khách hàng có kinh doanh. Thông qua
phân cụm, ngân hàng nhận diện được một phân khúc cơ bản các khách hàng cầm cố nhà vay
nợ để khởi sự kinh doanh. Các thông tin này được sử dụng để định hướng lại nỗ lực
marketing của ngân hàng. Berry và Linoff (1997) đưa ra một ví dụ chi tiết về phân tích cụm
đối với độ sáng và nhiệt độ của các ngôi sao4. Có 3 cụm chính được nhận thấy, gồm: đa số các
ngôi sao chuyển đổi Hydro thành Helium; những ngôi sao khổng lồ màu đỏ giãn nở to sau khi
khí Hydro bị sử dụng hết; và những khối nhỏ màu trắng nguội lạnh. Đo lường độ sáng và
nhiệt độ của các ngôi sao có thể được sử dụng để phân loại những ngôi sao mới thành 3
nhóm. Berry và Linoff cũng đưa ra ví dụ về quân đội Mỹ. quân đội Mỹ sử dụng phân tích cụm
để nhận diện một cách tương đối chính xác kích cỡ của sĩ quan nữ trong quân đội, cho phép
quân đội kết hợp các cỡ đồng phục gần nhau một cách tiết kiệm cho sĩ quan nữ.

MÔ TẢ PHÂN TÍCH CỤM

Ý tưởng của phân tích cụm là nhận diện các đặc điểm trung bình của các đo lường có sẵn cho
dữ liệu trong các nhóm, hay các cụm. Sau đó dữ liệu được đo bằng khoảng cách đến trung

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 69
Khai thác dữ liệu trong kinh doanh Chương 5

bình cụm. Nếu dữ liệu độc lập hoàn toàn thì số cụm sẽ nhiều bằng số quan sát. Nếu dữ liệu là
hoàn toàn phụ thuộc, thì chỉ có một cụm. Dĩ nhiên hầu hết dữ liệu là ở giữa hai thái cực này.
Điều đó dẫn tới việc phải lựa chọn số cụm. Với ví dụ của Berry và Linoff về các ngôi sao là
khá dễ vì có 3 loại sao rõ rệt (Điều này có thể trở thành phức tạp nếu thêm nhiều chi tiết cần
nghiên cứu về các ngôi sao). Quân đội có một vài lựa chọn về số cụm. Họ không thể làm đồng
phục may đo theo cỡ từng nữ sĩ quan (n cụm hay một cụm có một quan sát) vì như thế quá tốn
kém. Mặt khác, quân đội là nơi nổi tiếng với chính sách quần áo “một cỡ vừa cho tất cả”, về
cơ bản sử dụng một cụm. Số lượng cụm có thể được xác định theo quyết định chủ quan. Một
ngân hàng quan tâm đến 2 nhóm chính của đối tượng xin vay, những ai trả và những ai không
trả. Điều này có thể khiến mở rộng thành 3 cụm gồm cả những người có thể trễ hạn nhưng rồi
vẫn trả. Hầu hết các bài toán phân cụm trong thực tế chứa đựng mối quan hệ đa nghĩa về số
cụm kết hợp với kết quả đã biết.

Thuật Toán Cụm


Sau đây là thuật toán đơn giản k-means5 (phân cụm không thứ bậc)
1. Chọn số cụm k mong muốn (hoặc lặp đi lặp lại từ 2 đến số lượng tối đa của cụm mong
muốn)
2. Chọn k quan sát ban đầu như hạt giống của các cụm (có thể chọn ngẫu nhiên, nhưng
thuật toán sẽ làm việc tốt hơn nếu các giá trị hạt giống này càng cách xa càng tốt)
3. Tính toán giá trị cụm trung bình trên mỗi biến (đối với vòng chạy phân tích đầu tiên,
điều này sẽ đơn giản là các giá trị trên mỗi biến của quan sát hạt giống đầu tiên)
4. Xếp mỗi các quan sát phân tích khác vào các cụm gần nhất, theo đo lường khoảng
cách bình phương (các thước đo khác cũng có thể được sử dụng nhưng khoảng cách
bình phương là cách thông thường)
5. Tính toán lại trung bình cụm căn cứ theo sự ấn định của bước 4
6. Lặp lại bước 4 và 5 cho đến khi hình thành được cùng một tập phân công giống nhau

Chú ý rằng thuật toán này không đảm bảo ra cùng một kết quả nếu các hạt giống đầu tiên
được chọn khác nhau. Tuy nhiên nó là thủ tục tương đối dễ thực hiện. Vấn đề chỉ là cách xác
định k, có thể xử lý bằng cách áp dụng thủ tục cho 2 cụm, sau đó là 3 cụm, tiếp đến là 4 cho
đến khi đạt tới số lượng tối đa mong muốn. Trong một vài trường hợp việc lựa chọn giữa
những phương án có thể khá là rõ ràng, nhưng cũng có những trường hợp khó lựa chọn.

Có một số điểm hạn chế trong thủ tục phân cụm k. Dữ liệu cần được chuyển về dưới dạng đơn
vị đo lường chuẩn hóa để loại bỏ ảnh hưởng của yếu tố thang đo khác nhau. Tuy nhiên cách
tiếp cận này giả định tất cả các biến là quan trọng như nhau. Nếu có một vài biến quan trọng
hơn những biến khác, các trọng số có thể được sử dụng trong việc tính toán khoảng cách,
nhưng việc xác định các trọng số này cũng lại là một nguồn không chắc chắn khác.

Dữ liệu về gian lận bảo hiểm


Chúng ta có thể ứng dụng kĩ thuật phân cụm k-means vào tập dữ liệu về gian lận trong đòi bồi
thường bảo hiểm (Bảng 4.10 và 4.11). Bảng 5.1 cho ta dữ liệu đã chuẩn hóa cho mỗi trường
hợp trong 10 quan sát dùng để phân tích mô hình, quy tắc biến đổi như sau:

Tuổi < 20 Điểm = 0.0


Tuổi 20 – 40 Điểm = (tuổi-20)/20
Tuổi 40 – 60 Điểm = 1.0
Tuổi 60 – 70 Điểm = 1.0 – (Tuổi-60)/10
Tuổi  70 Điểm = 0.0

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 70
Khai thác dữ liệu trong kinh doanh Chương 5

Bảng 5.1: Dữ liệu chuẩn hóa về gian lận bảo hiểm được dùng để phân tích mô hình
Trường hợp Tuổi Giới Số tiền đòi Vé phạt Số lần đòi bảo Luật sư Kết cục
tính chi trả hiểm trước đây
1 1 1 0.6 1 0.5 0 Đạt yêu cầu
2 0.9 1 0.64 1 1 1 Đạt yêu cầu
3 0.05 0 0 0.6 0 0 Gian lận
4 0.8 0 0.24 1 0.5 1 Đạt yêu cầu
5 0 1 0.88 0 0 0 Đạt yêu cầu
6 1 1 0.16 0.6 0 0 Gian lận
7 0.9 1 0.46 1 1 1 Đạt yêu cầu
8 0.65 0 0.5 1 0.5 1 Gian lận
9 0 0 0.74 1 1 1 Đạt yêu cầu
10 0.3 1 0.48 0 1 1 Đạt yêu cầu

Bảng 5.2 Các trung bình cụm của dữ liệu về gian lận bảo hiểm
Cụm Tuổi Giới tính Số tiền đòi Vé phạt Số lần đòi bảo Luật sư Kết cục
chi trả hiểm trước đây
Cụm 1 1 1 0.6 1.0 0.5 0.0 0.0
Cụm 2 0.05 0.0 0.0 0.6 0.0 0.0 1.0

Bảng 5.3: Tổng khoảng cách bình phương của những trường hợp yêu cầu gian lận bên phần dữ
liệu phân tích mô hình cho phân tích cụm
Các quan sát phân tích Cụm 1 Cụm 2 Kết quả
1 0 2.673 Cụm 1
2 1.262 4.292 Cụm 1
3 2.673 0 Cụm 2
4 2.170 2.030 Cụm 2
5 2.328 2.137 Cụm 2
6 0.604 1.928 Cụm 1
7 1.280 4.094 Cụm 1
8 2.133 2.020 Cụm 2
9 3.270 2.710 Cụm 2
10 2.754 3.653 Cụm 1

Bảng 5.4: Trung bình cụm chạy lần 2 cho dữ liệu gian lận bảo hiểm
Cụm Tuổi Giới tính Số tiền đòi chi trả Vé phạt Số lần đòi bảo hiểm Luật sư Kết cục
trước đây
Cụm 1 0.82 1 0.468 0.720 0.7 0.6 0.2
Cụm 2 0.30 0.2 0.472 0.720 0.4 0.6 0.4

Bảng 5.5: Tổng khoảng cách bình phương của những trường hợp yêu cầu gian lận bên phần dữ
liệu phân tích mô hình cho phân tích cụm (chạy lần 2)
Các quan sát phân tích Cụm 1 Cụm 2 Kết quả
1 0.528 1.595 Cụm 1
2 0.364 1.627 Cụm 1
3 2.676 0.860 Cụm 2
4 1.331 0.592 Cụm 2
5 2.211 1.935 Cụm 2
6 0.992 1.762 Cụm 1
7 0.335 1.599 Cụm 1

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 71
Khai thác dữ liệu trong kinh doanh Chương 5

8 1.308 0.412 Cụm 2


9 2.075 0.800 Cụm 2
10 1.039 1.678 Cụm 1

Giới tính là một biến phân loại, ở đây ta ngẫu nhiên chọn trị số cho nữ là 0 và nam là 1.
Tổng số tiền yêu cầu bảo hiểm được chuyển đổi về dạng phân loại bằng công thức: điểm =
MAX (1 – số tiền yêu cầu/5000,0)
Số vé phạt được chuyển đổi bằng công thức:
0 vé Điểm = 1
1 vé Điểm = 0.6
2 vé trở lên Điểm = 0
Số lần bị tai nạn đòi bảo hiểm trước đây được chuyển đổi như sau:
0 có lần nào Điểm = 1
1 lần Điểm = 0.5
2 lần trở lên Điểm = 0
Nếu không có luật sư trị số là 0, ngược lại là 1.

Chúng ta có thể chọn các quan sát kiểm tra đầu tiên cho mỗi kết quả (Không và Có gian lận)
làm hạt giống khởi đầu. Nó sẽ là quan sát 1 và 3 trong Bảng 5.1 với trung bình cụm thể hiện
trong Bảng 5.2.

Bước 3 trong thủ tục cụm k-means tính toán khoảng cách bình phương từ quan sát đến các
trung bình cụm này và thể hiện trong Bảng 5.3. Tính toán này trên quan sát phân tích số 2 đến
Cụm 1 sẽ là:
(0.9-1)2 + (1-1)2 + (0.64-0.6)2 + (1-1)2 + (1-0.5)2 + (1-0)2 = 1.2616
Khoảng cách đến Cụm 2 là
(0.9-0.05)2 + (1-0)2 + (0.64-0)2 + (1-0.6)2 + (1-0)2 + (1-0)2 = 4.2921

Vì khoảng cách đến cụm 1 (1.2616) là gần hơn đến cụm 2 nên quan sát thứ 2 được xếp vào
cụm 1.
Điều này mang lại các trung bình cụm mới như trong Bảng 5.4. Kết quả này mang lại các
phân nhóm như trong Bảng 5.5

Vì kết quả này mang lại cùng cách ấn định đã gặp trong lần thực hiện trước (Bảng 5.3), thuật
toán dừng lại. Các trung bình cụm cuối cùng thể hiện trong Bảng 5.4. Phân cụm không có ý
nghĩa cho dự đoán mà đúng hơn là cho mô tả dữ liệu. Các cụm được xác định ở bước cuối
cùng có thể không liên kết với bất cứ một kết quả cụ thể nào, mặc dù rất là thú vị để thấy mối
liên hệ của các cụm với các kết quả. Ở đây các cụm khác với hầu hết các khẳng định đầu tiên
của chúng ta, với nhiều khác biệt trong biến tuổi, giới tính, và số lần bị tai nạn đòi bảo hiểm
lần trước. Tuổi dường như tạo nên một số sự khác biệt, với những ai có trị số về tuổi cao (tức
ở tầm trung niên-theo cách mã hóa) thì tập trung hơn trong cụm đầu tiên. Giới tính có một
khác biệt lớn, với những ai trong cụm 1 hầu hết là nam và trong cụm 2 hầu hết là nữ. Không
có chênh lệch về tổng số tiền đòi bảo hiểm, số vé phạt và sự tham gia của luật sư. Có một ít
khác biệt ở biến số lần bị tai nạn đòi bảo hiểm trước đây. Cụm 1 có ít vụ gian lận hơn cụm 2,
nhưng đây chỉ là một ví dụ nhỏ cho mục đích minh họa nên không có kết luận nào được rút
ra. Người sử dụng cần đảm bảo rằng bản thân có một hiểu biết căn bản về pháp luật để có thể
sử dụng các biến. Trong lĩnh vực bảo hiểm điều này được xác định bởi luật pháp của Tiểu
bang. Nếu tất cả các biến này là có giá trị cho mục đích phân tích mô hình cụm sẽ chỉ ra một

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 72
Khai thác dữ liệu trong kinh doanh Chương 5

sự khác biệt trong đó cụm 1 là lớn tuổi hơn, phần lớn là nam, có nhiều khả năng có luật sư, và
có từng bị tai nạn yêu cầu bồi thường trước đây. Bảng 5.6 đưa ra các trị số đã chuyển đổi cho
5 quan sát đầu tiên dùng kiểm tra mô hình.
Bảng 5.6: Các trị số của các quan sát kiểm tra của tập dữ liệu gian lận bảo hiểm
Trường hợp Tuổi Giới tính Số tiền đòi Vé phạt Số lần tai nạn Luật sư Kết cục
chi trả trước đây
1 0.15 1 0.44 0.6 1 1 Đạt yêu cầu
2 0.55 00 0.72 1 1 1 Đạt yêu cầu
3 0.4 1 0.16 0 0 0 Gian lận
4 0 1 0.44 1 0.5 1 Đạt yêu cầu
5 1 1 0.68 1 1 0 Đạt yêu cầu

Chúng ta tính khoảng cách bình phương từ cả hai trung bình cụm cho từng quan sát trong
phần dữ liệu kiểm tra, khoảng các từ Cụm 1 đến Quan sát số 1 là
(0.82-0.15)2 + (1-1)2 + (0.468-0.44)2 + (0.72-0.6)2 + (0.7-1)2 + (0.6-1)2 = 0.714
từ Cụm 2 đến Quan sát số 1 là:
(0.3-0.15)2 + (0.2-1)2 + (0.472-0.44)2 + (0.72-0.6)2 + (0.4-1)2 + (0.6-1)2 = 1.198
Vì vậy quan sát số 1 trong phần dữ liệu kiểm tra gần cụm 1 hơn Cụm 2, các Quan sát 3, 4, 5
cũng vậy. Ba trong các quan sát này được dự đoán chính xác nhưng Quan sát số 3 là thật sự
có gian lận. Quan sát 2 gần Cụm 2 hơn (nó có khoảng cách tới Cụm 1 là 1.465 và tới Cụm 2
là 0.762) và có kết cục là Đạt yêu cầu.

Mô hình cụm có khoảng cách có gia trọng


Một số biến được kỳ vọng quan trọng hơn những biến khác. Có thể dễ dàng phản ánh tầm
quan trọng khác biệt của chúng thông qua các trọng số. Sử dụng một tập hợp các trọng số
0.01 cho tuổi, 0.2 cho giới tính, 0.2 cho số tiền đòi bảo hiểm, 0.1 cho số vé phạt 0.29 cho số
lần bị tai nạn đòi bảo hiểm trước đây và 0.2 cho có luật sư đại diện, thì được các kết quả đồng
nhất. Trung bình cụm ban đầu như trong Bảng 5.2. Việc tính toán cho quan sát 1 thuộc tập dữ
liệu phân tích được thể hiện trong Bảng 5.7.
Bảng 5.7: Tính toán khoảng cách đã gia trọng
Biến Quan sát Trị trung Khoảng cách đến cụm 1 Trị trung Khoảng cách đến cụm 2
phân tích bình cụm bình cụm
#2 #1 #2
2 2
Tuổi 0.9 1 0.01×(0.9-1) = 0.0001 0.05 0.01×(0.9-0.05) =0.0072
2 2
Giới tính 1 1 0.2×(1-1) =0.0000 0 0.2×(1-0) =0.2000
2 2
Số tiền đòi chi trả 0.64 0.6 0.2×(0.64-0.6) = 0.0003 0 0.2×(0.64-0) =0.0819
2 2
Vé phạt 1 1 0.1× (1-1) =0.0000 0.6 0.1×(1-0.6) =0.0016
2 2
Số lần tai nạn 1 0.5 0.29×(1-0.5) =0.0725 0 0.29×(1-0) =0.2900
trước đây
2 2
Luật sư 1 0 0.2×(1-0) =0.2000 0 0.2×(1-0) =0.2000
tổng 0.2729 0.7951

Bảng 5.8: Tổng (đã gia trọng) của khoảng cách bình phương của các quan sát phân tích
Các quan sát phân tích Cụm 1 Cụm 2 Kết quả
1 0 0.370 Cụm 1
2 0.273 0.795 Cụm 1
3 0.370 0 Cụm 2
4 0.426 0.306 Cụm 2
5 0.198 0.391 Cụm 1

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 73
Khai thác dữ liệu trong kinh doanh Chương 5

6 0.127 0.214 Cụm 1


7 0.277 0.756 Cụm 1
8 0.403 0.342 Cụm 2
9 0.486 0.616 Cụm 1
10 0.380 0.773 Cụm 1

Bảng 5.9 Trung bình cụm chạy lần 2 cho dữ liệu gian lận bảo hiểm đã gia trọng
Cụm Tuổi Giới tính Số tiền đòi chi trả Vé phạt Số lần tai nạn trước đây Luật sư Kết cục
Cụm 1 0.586 0.857 0.566 0.657 0.643 0.571 0.143
Cụm 2 0.5 0 0.247 0.867 0.333 0.667 0.667

Bảng 5.10 Khoảng cách bình phương đã gia trọng của các quan sát phân tích (chạy lần 2)
Các quan sát phân tích Cụm 1 Cụm 2 Kết quả
1 0.089 0.326 Cụm 1
2 0.092 0.385 Cụm 1
3 0.399 0.142 Cụm 2
4 0.223 0.033 Cụm 2
5 0.256 0.479 Cụm 1
6 0.224 0.332 Cụm 1
7 0.093 0.364 Cụm 1
8 0.202 0.045 Cụm 2
9 0.242 0.204 Cụm 2
10 0.123 0.438 Cụm 1

Khoảng cách được gia trọng của Quan sát Phân tích số 2 nằm gần Cụm 1 hơn. Áp dụng trọng
số cho toàn bộ 10 quan sát cho ra kết quả như Bảng 5.8.

Điều này đưa đến các trung bình cụm mới như trong Bảng 5.9. Vòng chạy kế tiếp đưa đến
cách phân cụm như thể hiện trong Bảng 5.10.

Tập các cụm này hơi khác biệt, với quan sát thứ 9 thuộc tập phân tích được phân lại vào Cụm
2. Các trung bình cụm mới cũng giống như kết quả trong Bảng 5.4 và dẫn đến những phân
cụm tương tự như được trình bày trong Bảng 5.5. Mặc dù các trọng số đưa đến các cụm giống
nhau trong ví dụ nhỏ này (cho dù đường dẫn khác nhau) chúng có thể cung cấp một phương
tiện hữu dụng để nhấn mạnh các biến được biết là quan trọng hơn.

THAY ĐỔI SỐ LƯỢNG CỤM

Trong các ví dụ chúng ta đã xem xét cho đến bây giờ thì số lượng cụm được hình thành dựa
trên bối cảnh của bài toán (hoặc là các cụm đã xác định trước như với dữ liệu về xin việc sử
dụng phân tích biệt số, hoặc là kết quả nhị phân như dữ liệu về gian lận bảo hiểm). Phân tích
cụm thường giả định tình huống chung nhất là số lượng cụm tối ưu là chưa biết. Chúng ta sử
dụng dữ liệu chi tiêu dùng để khảo sát tỷ lệ tiền chi cho hàng thực phẩm, với biến mục tiêu là
các khoảng tỷ lệ. Có thể là sự phân chia 2 nhóm đơn giản, hoặc nó có thể là sự phân chia tỷ lệ
chi tiêu thành các nhóm nhiều bằng chính số quan sát. Sự phù hợp tốt nhất là với số phân chia
lớn nhất có thể nhưng điều đó sẽ không cung cấp thông tin hữu ích hoặc tích cực. Chúng ta sử
dụng 10 quan sát đầu tiên của tập dữ liệu phân tích như thể hiện trong Bảng 5.11.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 74
Khai thác dữ liệu trong kinh doanh Chương 5

Bảng 5.11 Tập dữ liệu phân tích lấy từ file dữ liệu chi tiêu
Trường hợp 1 2 3 4 5 6 7 8 9 10
Tuổi 87 64 23 48 56 27 54 53 56 65
Giới tính F F F F M M M M F F
Tình trạng hôn nhân Ly hôn Có g.đình Độc thân Có g.đình Có g.đình Có g.đình Có g.đình Có g.đình Có g.đình Có g.đình
Người phụ thuộc 0 0 0 1 0 1 0 2 0 0
Thu nhập 80054 51253 41426 59073 57397 29203 41541 43321 31082 58995
Số năm làm việc 5 4 7 13 21 6 15 3 10 12
Số năm tại đ. phương 0 0 23 0 18 0 15 9 2 8
Số năm đi học 13 11 11 13 13 12 18 11 11 13
Bằng lái no Yes Yes yes Yes Yes yes no yes yes
Sở hữu nhà no No No yes Yes Yes no no no yes
Thẻ tín dụng 1 13 1 4 9 2 12 0 6 3
Churn 0 1 0 0 1 0 1 0 1 0
Tỷ lệ chi tiêu hàng 0.031 0.044 0.000 0.073 0.037 0.140 0.052 0.059 0.069 0.036
thực phẩm

Tập dữ liệu này cần chuyển đổi thành các giá trị trong khoảng 0 - 1 trước khi tính toán khoảng
cách. Bảng 5.12 cung cấp thông tin đã chuyển đổi theo quy ước sau:
Tuổi MAX(0,MIN(1,(Tuoi-20)/50))
Giới tính F = 0, M = 1
Tình trạng hôn nhân Doc than = 0; Ly di = 0.5; Kết hôn =1.0
Số người phụ thuộc =IF(Số phụ thuộc > 4,1,Số phụ thuộc/5)
Thu nhập =MIN(1,Thu nhập/100000)
Số năm làm việc =MIN(1, Số năm làm việc /10)
Số năm sống tại tp =MIN(1, Số năm sống tại tp /20)
Số năm đi học =IF(Số năm đi học<12,0,IF(Số năm đi học<14,.3,IF(Số
năm đi học<16,.5,1)))
Bằng lái No =0, Yes=1
Sở hữu nhà No =0, Yes=1
Số lượng lượng thẻ tín dụng =IF(thẻ tín dụng>4,1,thẻ tín dụng/5)
Churn (thẻ tín dụng bị hủy) No =0, Yes=1

Dữ liệu có thể được chia thành tới 10 nhóm khác nhau. Chúng ta sẽ minh họa với 2 nhóm, và
sau đó với 3 nhóm. Với trường hợp 2 nhóm, hạt giống là quan sát thứ 3 (vì có chi tiêu cho
hàng thực phẩm thấp một cách khác thường) và quan sát thứ 6 (vì có chi tiêu cho hàng thực
phẩm cao khác thường). Bảng 5.13 đưa ra kết quả chạy lần đầu tiên cho dữ liệu này.
Bảng 5.12: Trị số chuẩn hóa cho 10 quan sát đầu tiên của tập dữ liệu phân tích
Trường hợp 1 2 3 4 5 6 7 8 9 10
Tuổi 1.00 0.88 0.06 0.56 0.72 0.14 0.68 0.66 0.72 0.90
Giới tính 0 0 0 0 1 1 1 1 0 0
Tình trạng hôn nhân 0.5 1 0 1 1 1 1 1 1 1
Người phụ thuộc 0 0 0 0.2 0 0.2 0 0.4 0 0
Thu nhập 0.800 0.512 0.414 0.591 0.574 0.292 0.415 0.433 0.311 0.590
Số năm làm việc 0.5 0.4 0.7 1.0 1.0 0.6 1.0 0.3 1.0 1.0
Số năm tại đ phương 0 0 1.00 0 0.90 0 0.75 0.45 0.10 0.40
Số năm đi học 0.3 0 0 0.3 0.3 0.3 1.0 0 0 0.3
Bằng lái 0 1 1 1 1 1 1 0 1 1
Sở hữu nhà 0 0 0 1 1 1 0 0 0 1
Thẻ tín dụng 0.2 1 0.2 0.8 1.0 0.4 1.0 0 1.0 0.6
Churn 0 1 0 0 1 0 1 0 1 0
Tỷ lệ chi tiêu hàng 0.031 0.044 0.000 0.073 0.037 0.140 0.052 0.059 0.069 0.036
thực phẩm

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 75
Khai thác dữ liệu trong kinh doanh Chương 5

Khoảng cách bình phương của 10 quan sát phân tích được tính cho cả 2 cụm. Bảng 5.14 trình
bày các tính toán này cho quan sát phân tích đầu tiên.

Vì khoảng cách từ Quan sát đầu tiên đến Cụm 1 là 3.413, và khoảng cách đến Cụm 2 là 4.338,
quan sát này gần Cụm 1 hơn và vì thế được phân vào cụm này. Trong trường hợp này 3 trong
10 quan sát được phân vào Cụm 1 (Quan sát 1,3,9) và 7 quan sát còn lại được phân vào Cụm
2. Trung bình cụm được tính và kết quả như trong Bảng 5.15.

Có một vài khác biệt so với lần chạy đầu tiên, với Quan sát thứ 8 thay đổi sang Cụm 1. Trung
bình cụm lần chạy thứ 3 được thể hiện trong Bảng 5.16.

Quan sát thứ 2 được chuyển sang Cụm 2. Giờ đây cụm đầu tiên bao gồm quan sát 1, 2, 3 và 9
trong khi cụm thứ nhì bao gồm các quan sát 4, 5, 6, 7, 8 và 10. Trung bình cụm sau lần chạy
thứ 4 được trình bày trong Bảng 5.17.

Trong trường hợp này, do đạt được kết quả phân nhóm vào các cụm giống nhau, nên thuật
toán ngừng lại. Cụm 1 (quan sát 1, 2, 3, 9) có mức trung bình chi tiêu cho hàng thực phẩm là
0.036, trong khi Cụm 2 (quan sát 4, 5, 6, 7, 8, 10) có mức trung bình chi tiêu cho hàng thực
phẩm là 0.067. Rõ ràng Cụm 1 chi ít hơn Cụm 2. Tính chất khác biệt cơ bản là Cụm 1 có
những người có tình trạng hôn nhân mang giá trị thấp nhiều hơn, ít năm hơn trong công việc,
số năm đi học ít hơn, Bằng lái xe mang trị số thấp nhiều hơn, số lượng thẻ tín dụng và số dư
trên thẻ tín dụng bị hủy (churn) mang giá trị thấp nhiều hơn. Không có trường hợp nào trong
Cụm 1 sở hữu nhà.
Bảng 5.13: Lần chạy đầu tiên, 2 cụm của chi tiêu hàng thực phẩm
Biến Giá trị cụm 1 Giá trị Cụm 2
Tuổi 0.06 0.14
Giới tính 0 1
Tình trạng hôn nhân 0 1
Số người phụ thuộc 0 0.2
Thu nhập 0.414 0.292
Số năm làm việc 0.700 0.6
Số năm sống tại tp 1.00 0
Số năm đi học 0 0.3
Bằng lái 1 1
Sở hữu nhà 0 1
Số lượng lượng thẻ tín dụng 0.20 0.4
thẻ tín dụng bị hủy (churn) 0 0

Bảng 5.14 Tính toán khoảng cách cho quan sát phân tích số 1
Biến Quan sát phân Cụm 1 Khoảng cách Cụm 2 Khoảng cách
tích số 1
Tuổi 1.0 0.06 (1-0.06)2=0.884 0.14 (1-0.14)2=0.740
Giới tính 0 0 (0-0)2=0.000 1 (0-1)2=1.000
Tình trạng hôn nhân 0.5 0 (0.5-0)2=0.250 1 (0.5-1)2=0.250
Số người phụ thuộc 0 0 (0-0)2=0.000 0.2 (0-0.2)2=0.040
Thu nhập 0.8 0.414 (0.8-0.414)2=0.149 0.292 (0.8-0.292)2=0.258
Số năm làm việc 0.5 0.700 (0.5-0.7)2=0.040 0.6 (0.5-0.6)2=0.010
Số năm tại địa phương 0 1 (0-1)2=1.000 0 (0-0)2=0.000
Số năm đi học 0.3 0 (0.3-0)2=0.090 0.3 (0.3-0.3)2=0.000
Bằng lái 0 1 (0-1)2=1.000 1 (0-1)2=1.000

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 76
Khai thác dữ liệu trong kinh doanh Chương 5

Sở hữu nhà 0 0 (0-0)2=0.000 1 (0-1)2=1.000


Số lượng thẻ tín dụng 0.2 0.20 (0.2-0.2)2=0.000 0.4 (0.2-0.4)2=0.040
Thẻ tín dụng bị hủy (churn) 0 0 (0-0)2=0.000 0 (0-0)2=0.000
3.413 4.338

Bảng 5.15: Chạy lần 2, 2 cụm của chi tiêu hàng thực phẩm
Biến Cụm 1 :1,3,9 Cụm 2 : 2,4,5,6,7,8,10
Giá trị Cụm 1 Giá trị Cụm 2
Tuổi 0.593 0.649
Giới tính 0 0.571
Tình trạng hôn nhân 0.5 1
Số người phụ thuộc 0 0.114
Thu nhập 0.509 0.487
Số năm làm việc 0.733 0.757
Số năm tại địa phương 0.367 0.357
Số năm đi học 0.1 0.314
Bằng lái 0.667 0.857
Sở hữu nhà 0 0.571
Số lượng thẻ tín dụng 0.467 0.686
Thẻ tín dụng bị hủy (churn) 0.333 0.429

Bảng 5.16: Chạy lần 3, 2 cụm của chi tiêu hàng thực phẩm
Biến Cụm 1 :1,2,3,9 Cụm 2 : 4,5,6,7,8,10
Giá trị Cụm 1 Giá trị Cụm 2
Tuổi 0.665 0.610
Giới tính 0 0.667
Tình trạng hôn nhân 0.625 1
Số người phụ thuộc 0 0.133
Thu nhập 0.510 0.483
Số năm làm việc 0.650 0.817
Số năm tại địa phương 0.275 0.417
Số năm đi học 0.075 0.367
Bằng lái 0.750 0.833
Sở hữu nhà 0 0.667
Số lượng thẻ tín dụng 0.600 0.633
Thẻ tín dụng bị hủy (churn) 0.500 0.333

Bảng 5.17: Chạy lần 4, 2 cụm cho chi tiêu hàng thực phẩm
Biến Cụm 1 :1,2,3,9 Cụm 2 : 4,5,6,7,8,10
Giá trị Cụm 1 Giá trị Cụm 2
Tuổi 0.665 0.610
Giới tính 0 0.667
Tình trạng hôn nhân 0.625 1
Số người phụ thuộc 0 0.133
Thu nhập 0.510 0.483
Số năm làm việc 0.650 0.817
Số năm tại địa phương 0.275 0.417
Số năm đi học 0.075 0.367
Bằng lái 0.750 0.833
Sở hữu nhà 0 0.667

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 77
Khai thác dữ liệu trong kinh doanh Chương 5

Số lượng thẻ tín dụng 0.600 0.633


thẻ tín dụng bị hủy (churn) 0.500 0.333

Bảng 5.18: Trung bình cụm cho chi tiêu hàng thực phẩm, 3 cụm, chạy lần 1
Biến Cụm 1 : 3 Cụm2 : 1,2,4,9,10 Cụm 3 : 5,6,7,8,
Giá trị Cụm 1 Giá trị Cụm 2 Giá trị Cụm 3
Tuổi 0.06 0.812 0.55
Giới tính 0 0 1
Tình trạng hôn nhân 0 0.9 1
Số người phụ thuộc 0 0.04 0.15
Thu nhập 0.414 0.561 0.429
Số năm làm việc 0.7 0.78 0.725
Số năm tại địa phương 1 0.1 0.525
Số năm đi học 0 0.18 0.4
Bằng lái 1 0.8 0.75
Sở hữu nhà 0 0.4 0.5
Số lượng thẻ tín dụng 0.2 0.72 0.6
Thẻ tín dụng bị hủy (churn) 0 0.4 0.5

Bảng 5.19: Tính toán khoảng cách cho mô hình 3 cụm


Trường hợp Khoảng cách - C1 Khoảng cách – C2 Khoảng cách – C3 Cụm đã phân công
1 3.413 1.588 2.877 2
2 4.412 0.844 2.225 2
3 0.000 2.878 3.017 1
4 3.861 0.739 1.368 2
5 5.291 2.561 1.031 3
6 4.201 2.279 0.932 3
7 5.177 2.832 1.489 3
8 4.023 3.043 2.029 3
9 3.986 0.802 1.979 2
10 3.436 0.747 1.218 2

Mô hình 3 cụm
Chúng ta sẽ sử dụng 3 hạt giống trong mô hình này, Quan sát thứ 3 cho trường hợp chi tiêu
thực phẩm thấp và Quan sát thứ 6 cho trường hợp chi tiêu thực phẩm cao, và Quan sát 4 cho
trường hợp chi tiêu thực phẩm ở mức độ giữa 2 thái cực này. Sau đó chúng ta có thể xác định
khoảng cách bình phương cho 10 quan sát đầu tiên trong tập dữ liệu (chúng ta có thể chọn tùy
ý như tập dữ tập dữ liệu phân tích). Bảng 5.18 thể hiện trung bình cho 11 biến trong 3 cụm.

Chi tiêu thực phẩm trung bình cho Cụm 1 là 0, Cụm 2 là 0,051 và Cụm 3 là 0,072. Chạy lần
thứ 2 cho ra khoảng cách bình phương như trong Bảng 5.19.

Việc phân cụm giống như trong lần chạy đầu tiên vì thế thuật toán ngừng lại.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 78
Khai thác dữ liệu trong kinh doanh Chương 5

ỨNG DỤNG CỦA PHÂN TÍCH CỤM

Phần này sẽ trình bày hai mô tả ngắn gọn về việc sử dụng phân tích cụm trong khai thác dữ
liệu. Mô tả đầu tiên là so sánh tìm kiếm kiểu mẫu với phân tích cụm truyền thống trong khai
thác dữ liệu về thanh toán tài khoản thẻ tín dụng, minh họa cách sử dụng khai thác dữ liệu để
theo dõi các tài khoản gặp khó khăn trong thanh toán. Mô tả thứ hai là khám phá kiến thức
ứng dụng sử dụng phân tích cụm như một phần của phân tích khai thác dữ liệu về điều tra
gian lận bảo hiểm và sự duy trì khách hàng. Cây quyết định và mạng thần kinh cũng được sử
dụng trong nghiên cứu này.

Theo dõi tài khoản tín dụng


Tính điểm tín dụng (credit scoring) là phần chính của khai thác dữ liệu trong kinh doanh tín
dụng. Tính điểm hồ sơ (Application scoring) sử dụng các hồ sơ quá khứ của những người xin
vay để xây dựng một mô hình dự đoán việc trả nợ, để có thể áp dụng cho những người vay nợ
mới khi cung cấp các thông tin đầu vào theo yêu cầu. Tính điểm hành vi giám sát việc sử
dụng cơ chế tín dụng với mục đích giám sát tình trạng tài khoản để đưa ra các cảnh báo sớm
về rắc rối.

Một công ty thẻ tín dụng lớn của Anh quan tâm đến hiệu quả của việc trả các khoản nợ 6. Các
khoản nợ này yêu cầu thanh toán ít nhất hàng tháng. Một tập dữ liệu lớn về tình trạng tài
khoản hàng tháng của 90,000 khách hàng được thu thập trong một năm hoạt động. Biến khảo
sát cơ bản là tình trạng, biến này mang giá trị nguyên cho biết số tháng (tính cộng dồn) trả nợ
hàng tháng trễ hạn. Giá trị tình trạng trễ nhất trong bộ dữ liệu là 8 tháng. Tập dữ liệu có một
số trường hợp không theo quy tắc (dữ liệu sai số hoặc khuyết) bị loại ra, do đó cung cấp một
mẫu dữ liệu được làm sạch để gia tăng chất lượng dữ liệu. Một mẫu thiên lệch với 10,000
quan sát được thu thập. Sự thiên lệch là do yêu cầu tình trạng lúc ban đầu là zero. Tỷ lệ các
quan sát ban đầu ở tình trạng zero là 73%, phản ánh cả hai nhóm khách hàng có số dư thanh
toán bằng 0 và các khách hàng ít nhất trả mức thanh toán tối thiểu.

Nghiên cứu này đã so sánh cách tiếp cận cụm với một tiếp cận sử dụng mô hình phát hiện.
Phương pháp phân cụm sử dụng các trung vị cho quan sát trung tâm thay vì các trung bình
cụm (centroid). Trung vị được chọn vì ổn định hơn trung bình. Cách tiếp cận này đã phân chia
toàn bộ mẫu dữ liệu để đưa mỗi đối tượng vào một nhóm và chỉ một nhóm. Cách tiếp cận tìm
kiếm kiểu mẫu cố gắng tìm ra cụm cục bộ, nhận diện tiểu sử các đối tượng lân cận mà có số
lượng điểm dữ liệu cao bất ngờ. Phương pháp tìm kiếm kiểu mẫu không chia toàn bộ tập dữ
liệu mà nhận diện một vài nhóm có hành vi khác thường. Cách tiếp cận phân cụm hữu ích
trong việc mô tả hành vi chung của các nhóm khách hàng. Điều này là hữu ích trong phân
khúc thị trường. Phương pháp tìm kiếm kiểu mẫu hữu ích trong nhận diện khách hàng với
hành vi bất bình thường, đắc dụng trong việc nhận diện tài khoản tín dụng có vấn đề.

Khai thác dữ liệu về đòi bảo hiểm


Nghiên cứu này báo cáo về khai thác dữ liệu trong 1 công ty bảo hiểm lớn.7 Hãng này có 1
kho dữ liệu lớn bao gồm hồ sơ tất cả các giao dịch tài chính và các yêu cầu bồi thường bảo
hiểm của họ. Mô hình lưu giữ khách hàng là rất quan trọng đối với hãng, và khai thác dữ liệu
dưới dạng cây quyết định, hồi quy và mạng nơ-ron được sử dụng cho hoạt động rất có tính
cấu trúc này. Mô hình phân tích các yêu cầu đòi bảo hiểm cũng quan trọng đối với doanh
nghiệp nhưng là vấn đề ít có tính cấu trúc hơn. Phân tích cụm được sử dụng để phân tích cấu
trúc các yêu cầu này.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 79
Khai thác dữ liệu trong kinh doanh Chương 5

Vì yêu cầu đòi bảo hiểm là mở. Cần một tiếp cận có tính khám phá và không định hướng
trước nhiều hơn. Dữ liệu cần được khám phá cho khuynh hướng và cấu trúc tiềm ẩn.
Công ty đã kinh qua sự tăng trưởng gần đây trong số lượng người mua hợp đồng bảo hiểm,
dẫn đến sự gia tăng trong lợi nhuận.

Rủi ro bảo hiểm là được đánh giá một cách đặc trưng bởi các hành vi thống kê bởi các khách
hàng bảo hiểm tương tự nhau. Các yêu cầu bảo hiểm được giả định là có phân phối Poisson
mà phụ thuộc vào đặc điểm của những người mua hợp đồng bảo hiểm cũng như yếu tố môi
trường. Mức độ đòi bảo hiểm được mô tả bởi phân phối đã biết, mà thông thường là phân
phối log-bình thường (log-normal). Mô hình phụ thuộc vào phân phối giả định và hệ thống
phân loại đa biểu hiện đã được định trước để ước lượng những rủi ro cá biệt và hiếm gặp.

Nghiên cứu này sử dụng khám phá tri thức không định hướng trước dưới dạng phân tích cụm
để nhận diện các loại rủi ro. Vì thế cách tiếp cận là hướng theo con đường của dữ liệu thay vì
được định trước. Dữ liệu được trích ra từ kho dữ liệu cho tất cả các chủ hợp đồng được chi trả
đặc biệt cao từ năm 1996 đến 1998. Dữ liệu theo quý bao gồm thông tin về các đặc điểm cá
nhân cũng như hành vi đòi hỏi thanh toán bảo hiểm trong giai đoạn 12 tháng trước. Có cả
thông tin về sự đóng góp của mỗi chủ hợp đồng vào lợi nhuận chung. Có hơn 100.00 mẫu sẵn
có. Thống kê mô tả đã tìm ra sự tăng trưởng mạnh trong kinh doanh với những người trẻ, và
với xe hơi đắt tiền. Dữ liệu được chuẩn hóa và loại bỏ các quan sát ngoại lệ.

Như với mọi phân tích cụm số cụm là bao nhiêu luôn là một câu hỏi chiến lược. Quá ít cụm
thì sự phân biệt các đối tượng không thỏa đáng, trong khi quá nhiều cụm dẫn tới các cụm cụ
thể mang quá ít quan sát. Thử nghiệm được tiến hành để khảo sát số lượng cụm tốt nhất, mà
kết cục là 50. Thuật toán k-means được sử dụng với điều kiện tối thiểu hóa sai số bình
phương bé nhất.

Phân tích nhận ra một vài cụm có tần số đòi bồi thường rất cao và không mang lại lợi nhuận.
Tỷ lệ then chốt phản ánh những biến này được nhận diện bằng cách so sánh dữ liệu 1998 và
1996, bằng cách dò tìm xu thế. Mô hình được sử dụng để dự đoán lợi ích của những chủ hợp
đồng bảo hiểm mới. Rồi lại làm căn cứ cho việc đặt giá hợp đồng bảo hiểm mới.

PHƯƠNG PHÁP PHÂN TÍCH CỤM ĐƯỢC SỬ DỤNG TRONG PHẦN


MỀM

Phương pháp phân tích cụm được sử dụng rộng rãi nhất là phân tích cụm hierarchical, phân
tích cụm Bayes, phân tích cụm k-means, và bản đồ tự tổ chức.8 Thuật toán phân tích cụm
hierarchical không đòi có số lượng cụm cụ thể trước khi phân tích. Tuy nhiên chúng chỉ xem
xét những nhóm cục bộ vào mỗi giai đoạn, và không thể luôn luôn phân tách các cụm bị
chồng chéo lên nhau.9 Phương pháp Hai Bước là một dạng phân tích cụm hierarchical, trong
khi cụm Bayes căn cứ trên xác suất.10 Mạng Bayes được xây dựng với các nút đại diện cho
các kết cục, và cây quyết định được dựng lên tại mỗi nốt. Phương pháp cụm k-means bao gồm
sự gia tăng số lượng cụm như minh họa ban đầu. Mạng lưới bản đồ tự tổ chức tận dụng kỹ
thuật mạng thần kinh để gom nhiều khía cạnh/chiều hướng vào một số ít khía cạnh/chiều
hướng, mà có lợi ích là giúp loại trừ khiếm khuyết dữ liệu có thể, chẳng hạn nhiễu trắng (mối
quan hệ giả tạo), ngoại lệ, hoặc giá trị khuyết.11 Phương pháp k-means được kết hợp với bản
đồ tự nhận thức cũng như với thuật toán phát sinh để gia tăng hiệu quả cụm.12

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 80
Khai thác dữ liệu trong kinh doanh Chương 5

Phân tích cụm hai bước đầu tiên nén dữ liệu thành các nhóm con sau đó áp dụng phương pháp
phân tích cụm mang tính thống kê để kết hợp các cụm con thành cụm lớn cho đến khi đạt
được số lượng cụm mong muốn. Vì thế sẽ hình thành số lượng cụm tối ưu cho tập dữ liệu
phân tích. Phương pháp cụm Bayes cũng căn cứ trên thống kê. Để biết thêm thông tin bạn
tham khảo tài liệu sau: bài báo “ACODF: A Novel Data Clustering Approach for Mining in
Large Databases” tại trang 133-145 trong tạp chí The journal of Systemsn and software” số 73
xuất bản năm 2004.

Thuật toán k-means vận hành bằng cách xác định số cụm cố định, và phân công lặp đi lặp lại
các quan sát (records) vào các cụm. Trong mỗi tương tác, trung tâm cụm được xác định lại.
Việc phân công lại và tính toán lại các trung tâm cụm tiếp tục cho đến khi mọi sự thay đổi
thấp hơn một ngưỡng cụ thể. Những phương pháp này đã được minh họa ở đầu chương rơi
vào lớp này của thuật toán.

Bản đồ tự tổ chức Kohonen (SOM, hay còn gọi là mạng Kohonen) là mạng thần kinh ứng
dụng cho phân tích cụm. Các quan sát đầu vào được kết nối với một tập các lớp kết quả, với
mỗi kết nối có một độ mạnh (gia trọng). Một quy trình 4 bước chung nhất được áp dụng: 13
1. Bản đồ giá trị ban đầu: một bản đồ với các vec tơ tham khảo giá trị ban đầu được
nhập vào được vẽ nên, và các tham số thuật toán ví dụ quy mô vùng lân cận và tỷ lệ
lượng thông tin lấy được được cài đặt.
2. Xác định các nút thành công: với mỗi quan sát đầu vào chọn nút phù hợp nhất bằng
cách tối thiểu hóa khoảng cách tới một vec tơ đầu vào. Chỉ tiêu Euclid thường được sử
dụng.
3. Cập nhật vec tơ tham khảo: vec tơ tham khảo và các nút lân cận của nó được cập nhật
dựa trên quy tắc lượng thông tin lấy được.
4. Lặp lại: trở lại bước 2 cho đến khi đạt tới số lượng epoch được chọn, điều chỉnh quy
mô của vùng lân cận.

Bản đồ nhỏ (một vài trăm nút hoặc ít hơn) là tốt nhất. Quy mô vùng lân cận và tỷ lệ lượng
thông tin lấy được lớn được giới thiệu lúc ban đầu, nhưng có thể giảm xuống. Với một bản đồ
nhỏ các tham số này đã không được căn cứ trên đó là điều quan trọng. Bản đồ tự tổ chức là
công cụ hữu dụng cho kiến thức máy móc (trí tuệ nhân tạo) như ứng dụng cho phân tích cụm.

ỨNG DỤNG CỦA NHỮNG PHƯƠNG PHÁP CHO BỘ DỮ LIỆU LỚN

Bây giờ chúng ta minh họa phân tích cụm với 3 tập dữ liệu lớn sử dụng phần mềm
Clementine. Clementine có 3 mô hình phân tích cụm. Cụm k-means phân công các quan sát
thành các con số cụ thể của cụm bằng cách điều chỉnh lặp đi lặp lại các trung tâm cụm (như
đã mô tả ở đầu chương này). Cụm hai giai đoạn đầu tiên nén dữ liệu lại thành các cụm phụ,
sau đó áp dụng thuật toán để kết hợp các cụm phụ này lại cho đến khi đạt đến số lượng tối
thiểu như mong muốn. Số lượng cụm tối ưu được chọn một cách tự động. Một phương pháp
thứ 3, mạng Kohonen sử dụng kỹ thuật mạng thần kinh để xác định cụm. Chúng ta sẽ minh
họa hai phương pháp đầu tiên.

Dữ liệu xin vay ngân hàng


Mục tiêu mang tính kinh doanh ở đây là nhận diện loại khách xin vay ít có khả năng gặp vấn
đề trong chuyện trả nợ vay nhất. Trong tập dữ liệu, kết cục trả đúng hạn là tốt và trễ hạn là
xấu. Chúng ta sử dụng 400 quan sát cho phân tích cụm. Chuyển hóa dữ liệu thành dạng chuẩn
hóa (giữa 0 và 1) được thực hiện như sau:

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 81
Khai thác dữ liệu trong kinh doanh Chương 5

Tuổi < 20 0
20 – 50 (tuổi -20)/30
50 – 80 1-(tuổi -50)/30
> 80 0
Thu nhập <0 0
0-100,000$ Thu nhập/100000
> 100,000$ 1
Rủi ro Min(1,Tài sản/(các khoản nợ + xin
vay))
Tín dụng Xanh 1
Vàng 0.3
Đỏ 0
Chúng ta sẽ sử dụng 400 quan sát này cho phân tích cụm. Mô hình Excel (một dạng của phân
tích biệt số trong tình huống này, nhận dạng một cách đơn giản các giá trị thuộc tính trung
bình cho từng cụm) bắt đầu bằng sắp trật tự 400 quan sát thành hai loại Đúng hạn và Trễ hạn,
và sau đó nhận dạng kết quả trung bình theo các biến cho mỗi nhóm, kết quả trung bình này
thể hiện ở Bảng 5.20.

Cụm 1 bao gồm các thành viên có khuynh hướng trẻ hơn với đo lường rủi ro và đánh giá tín
dụng xấu hơn. Thu nhập có khuynh hướng giống nhau cho cả hai nhóm. Mặc dù cụm 1 thu
nhập hơn thấp hơn một tý.

Phân tích cụm được áp dụng sử dụng thuật toán k-means trên phần mềm Clementine. Thủ tục
này cho phép định rõ số cụm. Sau khi đưa dữ liệu chuẩn hóa vào dưới dạng file Excel được
lưu dạng CSV phân cách bởi dấu phẩy, và sử dụng nút “Type” xác định biến kết quả (là đầu
ra) thuật toán k-means đã được áp dụng xác nhận 2 cụm. Chúng ta chọn 2 cụm để so sánh kết
quả với kết quả mô hình Excel, mà tối thiểu hóa khoảng cách bình phương. Bằng cách chọn
nút Execute chúng ta đạt được kết quả như bảng 5.21

Cụm 1 có nhiều hơn các khoản trả nợ đúng hạn. Trong khi 2 cụm là tương đương nhau về
tuổi, thu nhập, và rủi ro, cụm 1 có điểm đánh giá tín dụng tốt hơn. Điều này là tương tự với
các kết quả hình thành từ thuật toán Hai bước, nhưng có chút xíu khác biệt trong việc trả đúng
hạn với kết quả của k-means. Tuổi và rủi ro là ít quan trọng hơn trong mô hình thứ hai này
trong khi điểm đánh giá tín dụng thì quan trọng hơn.

Cả hai mô hình được kiểm tra trên 100 quan sát còn lại của tập dữ liệu. Bảng 5.22 so sánh các
kết quả này.

Trong trường hợp này, mô hình Excel là đúng trong 73% của các quan sát kiểm tra trong khi
mô hình k-means đúng 62%. Chú ý là mô hình cụm được dự định để nhận diện các nhóm
quan sát và thường là không giới hạn con số cụ thể của kết cục.

Dữ liệu về gian lận bảo hiểm


Cho ví dụ trong phần này, mục tiêu về mặt kinh doanh là để nhận diện các đặc điểm của các
đòi hỏi bồi thường bảo hiểm mà có nhiều khả năng là các vụ gian lận. Tập dữ liệu này có
5,000 quan sát. Chúng ta sẽ dùng 4000 quan sát cho phân tích và 1,000 còn lại cho kiểm tra.
Dữ liệu được chuyển hóa như bảng 5.1. 4,000 quan sát phân tích được sắp xếp theo kết cục,
sau đó trung bình được tính cho mỗi nhóm. Các kết quả của mô hình hai bước Clementine
được trình bày trong bảng 5.23

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 82
Khai thác dữ liệu trong kinh doanh Chương 5

Sự khác biệt trong mỗi cụm là hiển nhiên-các trường hợp này bao gồm vé phạt, số lần bị tai
nạn đòi thanh toán bảo hiểm trước đây, có luật sư hay không trong cụm thứ 2 (cùng với một
vài thứ khác). Cụm 1 gồm những người già hơn, ít khác nhau về giới tính và số tiền đòi bảo
hiểm. Sau đó áp dụng thuật toán k-means trong Clementine, thay đổi số cụm từ 2 đến 5. Bảng
5.24 thể hiện mô hình này so sánh kết quả với mô hình hai bước.

Cụm số 1 khá tương tự ở cả hai thuật toán, nhưng khác biệt xuất hiện ở cụm thứ 2 về tuổi, số
lần đòi bảo hiểm trước đây và số vé phạt. Tất cả các trường hợp liên quan có luật sư đều được
chia vào cụm 2 ở cả hai thuật toán nhưng thuật toán k-means tập trung vào các trường hợp
này nhiều hơn. Điểm cơ bản là thuật toán khác nhau dẫn tới các kết quả hơi khác biệt, tuy
nhiên dẫn tới kết luận tương tự.

Số cụm có thể thay đổi khi sử dụng thuật toán k-means, Bảng 5.25 thể hiện kết quả cho 3 cụm
này.

Ở đây tất cả các trường hợp có luật sư được phân công cho cụm thứ 3, cụm này có số lần đòi
bảo hiểm cao hơn và có khuynh hướng có kết cục trả trễ hạn cao hơn, cụm 1 và 2 là khá tương
tự ngoại trừ vấn đề tuổi (cụm 1 có điểm tuổi thấp hơn), với số vé phạt và số lần yêu cầu bảo
hiểm hơi cao hơn.
Bảng 5.20 Các trung bình điểm chuẩn hóa nhóm cho dữ liệu xin vay nợ
Cụm Đúng hạn Tuổi Thu nhập Rủi ro Tín dụng
C1 (355 trường hợp) 1 0.223 0.512 0.573 0.333
C2 (45 trường hợp) 0 0.403 0.599 0.809 0.690

Bảng 5.21 Kết quả cụm k-means trên Clementine cho dữ liệu xin vay nợ
Cụm Đúng hạn Tuổi Thu nhập Rủi ro Tín dụng
C1 (224 trường hợp) 0.960 0.384 0.590 0.804 1.000
C2 (176 trường hợp) 0.795 0.382 0.588 0.756 0.205

Bảng 5.22 Kết quả thuật toán cụm


Excel Excel k-means k-means
đúng hạn trễ hạn đúng hạn trễ hạn
Thường đúng hạn 69 25 58 36
Thường trễ hạn 2 4 2 4

Bảng 5.23 Phân tích cụm 2 bước cho tập dữ liệu gian lận bảo hiểm
Cụm 1 Cụm 2
(3126 trường hợp) (874 trường hợp)
Kết cục trễ hạn 0 0.069
Tuổi 0.727 0.471
Giới tính 0.499 0.485
Số tiền đòi trả bảo hiểm 0.609 0.589
Vé phạt 0.000 0.309
Số lần đòi bảo hiểm trước đây 0.000 0.425
Luật sư 0.000 0.071

Bảng 5.24 Mô hình hai cụm cho tập dữ liệu gian lận bảo hiểm dùng để phân tích
Biến Hai bước k-means Hai bước k-means
C1 C1 C2 C2
Các trường hợp 3126 3617 874 383

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 83
Khai thác dữ liệu trong kinh doanh Chương 5

Kết cục trễ hạn 0 0.012 0.069 0.042


Tuổi 0.727 0.709 0.471 0.308
Giới tính 0.499 0.498 0.485 0.478
Số tiền đòi trả bảo hiểm 0.609 0.609 0.589 0.561
Vé phạt 0 0.061 0.309 0.133
Số lần đòi bảo hiểm trước đây 0 0.019 0.425 0.787
Luật sư 0 0 0.071 0.162

Bảng 5.25 Kết quả cụm k-means cho dữ liệu gian lận bảo hiểm - 3 cụm
Biến Cụm 1 Cụm 2 Cụm 3
Các trường hợp 1298 2477 225
Kết cục trễ hạn 0.009 0.013 0.071
Tuổi 0.204 0.935 0.458
Giới tính 0.508 0.493 0.462
Số tiền đòi trả bảo hiểm 0.614 0.607 0.521
Vé phạt 0.135 0.029 0.104
Số lần đòi bảo hiểm trước đây 0.060 0.029 0.989
Luật sư 0 0 0.276

Bảng 5.26 Kết quả cụm k-means cho dữ liệu gian lận bảo hiểm - 4 cụm
Biến Cụm 1 Cụm 2 Cụm 3 Cụm 4
Các trường hợp 739 1244 1954 63
Kết cục trễ hạn 0.011 0.012 0.012 0.222
Tuổi 0.210 0.942 0.681 0.406
Giới tính 0 0 1 0.492
Số tiền đòi trả bảo hiểm 0.615 0.611 0.608 0.266
Vé phạt 0.146 0.033 0.059 0.103
Số lần đòi bảo hiểm trước đây 0.118 0.057 0.077 1
Luật sư 0 0 0 0..984

Bảng 5.26 thể hiện kết quả cho mô hình 4 cụm. Ở đây tất cả các trường hợp có liên quan đến
luật sư được phân công vào cụm 4. Cụm này một lần nữa bao gồm nhiều hơn số lần bị tai nạn
đòi bảo hiểm trước đây (chỉ ra rằng số lần bị tai nạn đòi bảo hiểm trước đây và việc có luật sư
có liên quan thuận chiều đến nhau). Thú vị là sự có mặt của luật sư dường như cũng có liên hệ
với tổng số tiền đòi bảo hiểm thấp trong cụm này, một vài điều gợi đến những khảo sát sâu
hơn. Cụm 3 và 4 khá tương tự ngoại trừ giới tính, cụm 1 được phân biệt ra bởi những thành
viên trung bình trẻ hơn, cùng với tỷ lệ vé phạt cao hơn và số lần bị tai nạn đòi bảo hiểm cao
hơn, mặc dù kết cục là khá tốt. Bảng 5.27 thể hiện kết quả cho mô hình 5 cụm.
Bảng 5.27 Kết quả cụm k-means cho dữ liệu gian lận bảo hiểm - 5 cụm
Biến Cụm 1 Cụm 2 Cụm 3 Cụm 4 Cụm 5
Các trường hợp 204 1243 1820 671 62
Kết cục trễ hạn 0.005 0.012 0.012 0.013 0.210
Tuổi 0.199 0.942 0.713 0.221 0.403
Giới tính 0.657 0 1 0 0.500
Số tiền đòi trả bảo hiểm 0.610 0.611 0.608 0.616 0.264
Vé phạt 0.811 0.033 0.010 0.058 0.105

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 84
Khai thác dữ liệu trong kinh doanh Chương 5

Số lần bị tai nạn đòi bảo hiểm trước đây 0.125 0.058 0.075 0.114 1
Luật sư 0 0 0 0 1
Ở đây, những trường hợp có luật sư nằm trong Cụm 5, mà có kết cục xấu hơn. Cụm 1 có
nhiều nam hơn, dường như trẻ hơn với số vé phạt thực tế nhiều hơn (nhưng ít đòi hỏi bảo
hiểm gian lận hơn). Cụm 2 khác Cụm 1 ở chỗ tuổi (điểm tuổi cao hơn, vì thế không trẻ cũng
không già), toàn bộ là nữ, rất ít vé phạt và số lần tai nạn đòi bảo hiểm trước đây cũng thấp.
Cụm 3 toàn là nam với nhiều đặc điểm khác chia sẻ với cụm 2. Cụm 4 toàn nữ, trẻ hơn, ít vé
phạt hơn. Từng cụm trong 4 cụm đầu tiên này là thực tế thuận lợi xét về việc gian lận bảo
hiểm (tức là ít có khả năng gian lận). Cụm 5 có các tình tiết xấu đối với chuyện gian lận bảo
hiểm, và cũng có các đặc điểm là tổng số tiền đòi bảo hiểm thấp, số lần bị tai nạn đòi bảo
hiểm trước đây cao, và tất cả đều có luật sư.

Thay đổi số cụm cho phép người phân tích tập trung vào nhiều chi tiết hơn khi số cụm tăng
lên. Việc này cung cấp các đầu mối là các nhân tố mà dường như có liên quan đến kết quả
quan tâm.

Dữ liệu chi tiêu


Kế tiếp chúng ta sẽ áp dụng phân tích cụm cho dữ liệu chi tiêu. Mục tiêu cho kinh doanh là để
nhận diện những người chi tiêu nhiều cho hàng thực phẩm. Điều này đem lại các kết quả như
trong Bảng 5.28.
Bảng 5.28 Kết quả phân cụm hai bước đối với dữ liệu chi tiêu
Biến Cụm 1 Cụm 2 Cụm 3
Trường hợp 2741 597 1662
Tỷ lệ chi cho hàng thực phẩm 0.081 0.087 0.094
Tuổi 0.319 0.489 0.359
Giới tính 0.570 0.593 0.639
Trình trạng hôn nhân 0.768 0.804 0.904
Người phụ thuộc 0.200 0.175 0.240
Thu nhập 0.401 0.506 0.584
Số năm làm việc 0.661 0.708 0.707
Số năm tại địa phương 0.214 0.223 0.237
Số năm đi học 0.228 0.255 0.321
Bằng lái xe 0.997 0.002 0.994
Nhà riêng 0.009 0.395 0.887
Thẻ tín dụng 0.516 0.512 0.517
Churn 0.327 0.323 0.285

Khác biệt lớn nhất trong các cụm dường như là việc có bằng lái xe. Những người không có
bằng lái xe được phân công vào Cụm 2. Những đặc tính khác để phân biệt Cụm 2 là về tuổi
trung bình thì già hơn. Cụm 1 và 3 là khá tương tự mặc dù Cụm 3 có tỷ lệ cao hơn người có
nhà riêng, trong khi Cụm 1 thì ít hơn. Cụm 3 cũng có tỷ lệ cao hơn người có gia đình cao hơn
và người có người phụ thuộc, thu nhập cao hơn, học vấn cao hơn, và hơi nhiều nữ hơn so với
cụm 1.

Tương quan là một thủ tục thống kê chuẩn đo lường cấp độ của mối tương quan giữa các
biến. chúng ta sử dụng công cụ tương quan của Excel để tính toán tương quan giữa các biến
trong tập dữ liệu này. Chúng ta có thể so sánh ma trận tương quan trong Bảng 5.29 với các kết
quả ban đầu của chúng ta.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 85
Khai thác dữ liệu trong kinh doanh Chương 5

Bảng 5.29 Ma trận tương quan – dữ liệu tiêu dùng


Người Năm Sở Thẻ
TT Hôn Thu Năm Năm Bằng
Tuổi Giới phụ làm hữu tín Churn
nhân nhập tại đp đi học lái
thuộc việc nhà dụng
Tuổi 1
Giới 0.01 1
TT Hôn nhân -0.11 -0.02 1
Người phụ thuộc -0.19 0 0.343 1
Thu nhập 0.22 0.14 -0.046 -0.02 1
Năm làm việc 0.24 0.06 -0.021 0.012 0.22 1
Năm tại đp -0.01 0 0.036 0.035 -0.01 0.016 1
Năm đi học 0.03 -0 -0.002 -0.02 0.16 0.055 0.008 1
Bằng lái -0.19 0.01 0.022 0.047 -0.06 -0.04 -0.002 0.008 1
Sở hữu nhà 0.07 0.07 0.194 0.058 0.36 0.083 0.021 0.042 -0.04 1
Thẻ tín dụng 0.01 0.01 -0.039 0.001 0.03 0.106 -0.001 0.028 0.007 -0.01 1
Churn -0.02 0.01 0.029 0.03 -0.03 -0.01 0.001 -0.01 -0.01 -0.02 -0 1
Chi tiêu hàng thực
0 0.02 -0.003 -0 -0 -0.02 -0.008 0.011 -0 0.016 0.012 -0.03
phẩm

Bằng lái không có tương quan mạnh với bất kỳ biến nào ngoài tuổi (tỷ lệ có bằng lái trong
những người trẻ tuổi cao hơn chút đỉnh so với trong những người lớn tuổi). Trong lúc đó,
những người già hơn, có khuynh hướng làm lâu năm hơn trong công việc hiện tại và có thu
nhập cao hơn, cả hai đều hợp lý. Nam (mã là 1) dường như có thu nhập cao hơn. Những
người đã lập gia đình có nhiều người phụ thuộc hơn (một kết quả rất hợp lý) và cũng có nhiều
khả năng sở hữu nhà riêng hơn. Những người mà có nhà riêng có xu hướng có thu nhập cao
hơn (có khả năng quan hệ là ngược lại). Ma trận tương quan cung cấp cái nhìn sâu vào bên
trong dữ liệu, tuy nhiên phân tích cụm cung cấp những cách nhìn khác, đưa đến những hiểu
biết sâu hơn về nhóm dữ liệu.

SẢN PHẨM PHẦN MỀM

Hầu hết nếu không nói là tất cả sản phẩm khai thác dữ liệu đều có khả năng phân tích cụm vì
đây là một công cụ phân tích thiết thực hàng đầu. SRA International’s Mantas là một hệ thống
được thiết kế cho phép các công ty tài chính sàng lọc dữ liệu kinh doanh để khám phá mẫu
hình kinh doanh khi cố gắng nhận diện kinh doanh bất hợp pháp và các rủi ro tranh chấp tiếp
theo sau đó thoe tinh thần quy tắc chặt chẽ của Ủy ban chứng khoán và ngoại hối (Securities
and Exchange Commission).14 Phân tích cụm là một trong những công cụ được cung cấp.
Phần mềm Mantas tìm kiếm các mẫu hình đáng ngờ, báo động cho các nhà phân tích về mẫu
hình vừa được khám phá, cùng với những nguyên nhân được nêu ra.

Có một công cụ thay thế cho khám phá dữ liệu ban đầu (cũng như phân tích đồ họa, mà cũng
được hỗ trợ bởi hầu hết các phần mềm khai thác dữ liệu). Ví dụ bên cạnh thuật toán phân
cụm, PolyAnalyst bao gồm thuật toán Find Laws căn cứ trên kĩ thuật tìm kiếm các thông tin
đặc trưng (Symbolic Knowledge Acquisition Technology - SKAT) để tìm kiếm các sự phụ
thuộc dạng hàm số ẩn trong dữ liệu. PolyAnalyst cũng bao gồm thuật toán Tìm Kiếm Phục
Thuộc, Find Dependencies, thể hiện độ mạnh của sự liên kết các thuộc tính, hướng dẫn nhà
phân tích khám phá sự phụ thuộc thấu đáo hơn các kỹ thuật khác.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 86
Khai thác dữ liệu trong kinh doanh Chương 5

PHỤ LỤC
Clementine
Clementine (từ SPSS) là một phần mềm khai thác dữ liệu chính yếu. Nó được thiết kế dạng
nhánh xung quang các đối tượng như thể hiện trong hình 5A.1 Nội dung của phần phụ lục này
nhằm trình bày một số kết quả của Clementine, đặc biệt là đồ thị mạng nhện, đồ thị này bổ
sung thêm những hiểu biết thu được từ phân tích cụm. Hầu hết các phần mềm khai thác dữ
liệu có cung cấp công cụ vẽ đồ thị mạng nhện này.
Hình 5A.1 Những nhánh chọn từ phần mềm SPSS Clementine

Biểu tượng loantrain.Clem.csv cho ta truy cập vào file (ở đây là file dữ liệu cho vay để phân
tích). Biểu tượng Type xác định các biến cần cho các phân tích cụ thể. Mô hình hai bước và
mô hình k-means là sẵn có cho phân tích cụm, như đã thảo luận trong chương. Clementine
cũng có thuật toán bản đồ tự tổ chức Kohonen có thể sử dụng cho phân tích cụm. Mỗi khi một
mô hình được chạy, kết quả được lưu trữ trong cửa sổ phía trên bên phải của Clementine. Các
kết quả này cung cấp trung bình cụm cho người sử dụng.

Biểu đồ mạng nhện


Clementine cho ta công cụ biểu đồ mạng nhện. Sử dụng nút “Type”, tất cả dữ liệu phải được
định nghĩa là loại “Set” với hướng dẫn “Both”. Hình 5A.2 cho ta biểu đồ mạng nhện đầu tiên
với cài đặt là 1 (cài đặt trên phần mềm). Các biến được mã màu sắc, mà thể hiện như các sắc
thái của màu xám trong hình 5A.2. Tuy nhiên nút cơ bản thì vẫn rõ ràng.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 87
Khai thác dữ liệu trong kinh doanh Chương 5

Hình 5A.2 Đồ thị mạng nhện ban đầu trên phần mềm SPSS Clementine – dữ liệu cho vay, cài
đặt 1

Biểu đồ mạng nhện này liên kết tất cả các biến trong tập dữ liệu và không cung cấp nhiều
thông tin ngoại trừ các mối quan hệ mạnh hơn được thể hiện bằng các đường đậm màu. Ở
đây kết cục 1 (trả đúng lúc) dường như có mối quan hệ mạnh với Thu nhập trung bình. Thanh
trượt tại góc trên bên trái có thể dời dần sang bên phải và mạng nhện thay đổi nhanh chóng.
Di chuyển thanh trượt để gia tăng cấp độ của các mối quan hệ giữa các kết cục riêng biệt
muốn xác định, khi các cấp độ muốn xác định này tăng lên, các đường khác biến mất và các
đường quan trọng hơn được giữ lại. Hình 5A.3 thể hiện mối quan hệ giữa 100 cài đặt.
Hình 5A.3 Đồ thị mạng nhện trên phần mềm SPSS Clementine của dữ liệu cho vay, cài đặt 100

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 88
Khai thác dữ liệu trong kinh doanh Chương 5

Vào giai đoạn này kết cục trả Đúng lúc có liên hệ với những người cho vay trẻ tuổi và trung
niên có điểm đánh giá tín dụng màu xanh lá, nhóm rủi ro thấp và cao và có thu nhập trung
bình. Điều này hữu dụng khi so sánh với kết quả mô hình phân tích cụm.

Nếu muốn xác định ít mối quan hệ hơn thanh trượt được kéo ngược qua phải. Hình 5A.4 thể
hiện biểu đồ mạng nhện tại cài đặt 25.

Kết cục 1 (trả đúng lúc) ở hình này liên kết với tất cả các kết cục khác ngoại trừ Lớn tuổi và
rủi ro trung bình. Liên hệ mạnh hơn cả với thu nhập trung bình. Kết cục 0 (không trả đúng
hạn) liên hệ với những trường hợp mà rủi ro cao, thu nhập trung bình và trẻ tuổi.
Hình 5A.4 Công cụ đồ thị mạng nhện trên phần mềm SPSS Clementine để nhận diện mối quan
hệ_dữ liệu cho vay, cài đặt 25.

Biểu đồ tương tự có thể ứng dụng cho dữ liệu về gian lận bảo hiểm. Biểu đồ khởi đầu (tại cài
đặt lớn hơn 0) được thể hiện trong Hình 5A.5.

Nó thể hiện điều gì xảy ra khi dữ liệu như tuổi được xem như có kết cục phân biệt. Có nhiều
giá trị biến đổi được thể hiện. Điều tương tự cũng đúng với tổng số tiền yêu cầu trả bảo hiểm.
Nó tạo ra một cấu trúc phức tạp.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 89
Khai thác dữ liệu trong kinh doanh Chương 5

Hình 5A.5 Đồ thị mạng nhện về gian lận bảo hiểm với cài đặt 10 –Phần mềm SPSS Clementine

Tuy nhiên tình trạng lộn xộn này có thể làm sáng tỏ bằng cách hạn chế số mối quan hệ cần
định rõ. Di chuyển thanh trượt đến 200 kết cục thì mà hình có được như hình 5A.6
Ở đây các mối quan hệ rõ ràng hơn, không có gì được thể hiện liên hệ ở những yêu cầu bảo
hiểm gian lận, nhưng các yêu cầu bảo hiểm đúng có liên hệ mạnh nhất với việc không có luật
sư. Ở đây cũng có các mối liên hệ đáng chú ý với hai giới tính (0 và 1), 0 vé phạt, và 0 lần đòi
bảo hiểm nào trước đây.

Biểu đồ mạng nhện của tập dữ liệu về người xin việc được mô tả Hình 5A.7
Hình 5A.6 Đồ thị mạng nhện về gian lận bảo hiểm với cài đặt 200 –Phần mềm SPSS Clementine

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 90
Khai thác dữ liệu trong kinh doanh Chương 5

Hình 5A.7 Đồ thị mạng nhện ban đầu cho dữ liệu người xin việc –Phần mềm SPSS Clementine

Tập dữ liệu này được điều chỉnh để bao hàm dữ liệu dạng phân loại về tuổi và năm kinh
nghiệm. Chú ý là nó (đồ thị mạng nhện Hình 5A.7) có vẻ phức tạp hơn nhưng lại dễ giải mã
hơn hình 5A.5. Xử lý dữ liệu để có định dạng tốt nhất cho từng phân tích cụ thể có thể đòi hỏi
nhiều thời gian, nhưng cũng lại rất hữu dụng trong việc giúp người sử dụng nhận ra những
mối quan hệ. Hình 5A.8 thể hiện cùng dữ liệu tại cài đặt 50.
Hình 5A.8 Đồ thị mạng nhện trên phần mềm SPSS Clementine-dữ liệu người xin việc, cài đặt 50

Đồ thị này thể hiện mối quan hệ rất mạnh. Có một mối quan hệ mạnh giữa nhóm tuổi 25-30
kinh nghiệm làm việc trên 2 năm. Tuy nhiên mục đích thương mại ở đây là có thể nhận diện
mối quan hệ với kết cục. Kết cục đầy đủ là mối quan hệ với trên hai năm kinh nghiệm, cả hai

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 91
Khai thác dữ liệu trong kinh doanh Chương 5

nhóm trình độ cử nhân và thạc sĩ, và tuổi 25-30. Kết cục tối thiểu là quan hệ với hai trong số
những phân loại dữ liệu này (trên hai năm kinh nghiệm, tuổi 25-30)

TÓM TẮT

Phân tích cụm là công cụ khảo sát dữ liệu ban đầu rất hấp dẫn. Một mặt phân tích cụm giúp
nhận diện, mặt khác phương pháp này thường được sử dụng để khám phá quy tắc và mẫu
hình.
Thỉnh thoảng trung vị được sử dụng thay cho trung bình làm trung tâm cụm, như đã thấy
trong ví dụ đầu tiên. Việc làm này là do người ta kì vọng trung vị ổn định hơn trung bình. Bởi
vì các quan sát ngoại lệ không ảnh hưởng đến trung vị như trung bình. Rất dễ xác định trung
vị bằng Excel (dù Excel không phải là một phần mềm phục vụ khai thác dữ liệu). Trong Excel
chúng ta chỉ việc dùng cú pháp lệnh “=Median(Range)” thay vì “=Average(Range) sẽ có được
trung vị.
Có vấn đề là các cụm đôi khi không hiển thị rõ ràng (đó là lý do tại sao tồn tại công cụ mô
hình như mô hình Hai Bước trên phần mềm Clementine- để nhận diện tự động số lượng cụm
tối ưu trong bối cảnh tối thiểu hóa đo lường sai số). Có một số lựa chọn để xác định số cụm.
Phân cụm tích tụ là một cách tiếp cận trong đó bạn bắt đầu với số lượng cụm tối đa, và sau đó
các cụm được kết hợp lặp đi lặp lại cho đến khi chỉ còn lại một cụm. Sau đó giá trị cụm phù
hợp nhất được chọn. (Giá trị phù hợp nhất được xác định bởi bất kỳ số nào được chọn, và căn
cứ trên nhu cầu dự đoán chính xác- ít cụm thì tốt hơn, đi kèm với nhu cầu phân biệt tốt-nhiều
cụm thì tốt hơn). Công cụ thương mại có một vài thông số và phương pháp khác nhau. Một số
dùng mật độ xác suất thay vì đo lường khoảng cách, mà nhằm phân tích tốt hơn khi các cụm
bị chồng chéo lên nhau. Coleman và các đồng sự (1999) cung cấp một nghiên cứu chi tiết về
các phương pháp này.15

Chú thích thuật ngữ


Cluster: một nhóm các đối tượng có liên quan thường được xác định bằng cách chia sẻ các
đặc điểm
Customer profile: một bản mô tả các trường hợp qua các giá trị (nếu là thông tin định lượng)
hoặc thể loại (nếu là thông tin định tính) trên các biến được chọn.
k-means clustering: một kĩ thuật phân cụm trong đó số lượng cụm là được xác định trước.
Median:giá trị đứng giữa trong một tập dữ liệu đã sắp trật tự tăng dần
Normalize: một thao tác thống kê để chuẩn hóa dữ liệu bằng cách lấy giá trị cụ thể đó trừ
trung bình và chia cho độ lệch chuẩn nhằm chuyển dữ liệu về một thang đo dễ nhận ra được
sự phân tán.
Outlier: những quan sát thống kê với giá trị rất khác biệt với đại đa số những quan sát còn lại
của tập dữ liệu.
Pattern search: thủ tục toán để phân tích dữ liệu sử dụng một mẫu hình có tính hệ thống
Seft-organizing map: thuật toán cụm căn cứ trên kĩ thuật mạng thần kinh
Undirected knowledge discovery: phân tích khai thác dữ liệu tự động ở đó phần mềm máy
tính nhận diện các mối quan hệ không cần hướng dẫn của người sử dụng.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 92
Khai thác dữ liệu trong kinh doanh Chương 5

Bài tập
1. Áp dụng thủ tục k-means cho file dữ liệu về gian lận bảo hiểm sử dụng giá trị chuẩn hóa
của 6 biến đầu vào. Cài đặt k đến 2, phản ảnh 2 kết cục. Sử dụng 1000 quan sát đầu tiên
làm phần dữ liệu phân tích, và áp dụng lại nó cho 1000 quan sát cuối. Sử dụng bảng
điểm/mã hóa được mô tả ở Bảng 5.1. Dùng phần mềm Khai thác dữ liệu nếu có hoặc
thay thế bằng Excel. Nhận diện các nhóm được hình thành và thông tin gì chúng thể
hiện ra.
2. Áp dụng thủ tục Hai bước cho file dữ liệu về gian lận bảo hiểm sử dụng giá trị chuẩn
hóa của 6 biến đầu vào. Sử dụng 1000 quan sát đầu tiên làm phần dữ liệu phân tích, và
áp dụng lại nó cho 1000 quan sát cuối. Sử dụng bảng điểm/mã hóa được mô tả ở bảng
5.1. Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng Excel. Nhận diện các
nhóm được hình thành và thông tin gì chúng thể hiện ra.
3. Áp dụng thuật toán mạng thần kinh Kohonen sử dụng giá trị chuẩn hóa của 6 biến đầu
vào. Sử dụng 1000 quan sát đầu tiên làm phần dữ liệu phân tích, và áp dụng lại nó cho
1000 quan sát cuối. Sử dụng bảng điểm/mã hóa được mô tả ở Bảng 5.1. Dùng phần
mềm Khai thác dữ liệu nếu có hoặc thay thế bằng Excel. Nhận diện các nhóm được hình
thành và thông tin gì chúng thể hiện ra.
4. Áp dụng thủ tục k-means cho file dữ liệu về người xin vay nợ sử dụng giá trị chuẩn hóa
của 5 biến đầu vào : tuổi, thu nhập, rủi ro, điểm đánh giá tín dụng và trả đúng hạn (sử
dụng dữ liệu khoảng). Cài đặt k đến 2, đại diện 2 kết cục. Sử dụng 650 quan sát làm dữ
liệu phân tích. Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng Excel.
Nhận diện các nhóm được hình thành và thông tin gì chúng thể hiện ra.
5. Áp dụng thủ tục Hai bước cho file dữ liệu về người xin vay nợ sử dụng giá trị chuẩn hóa
của 5 biến đầu vào: tuổi, thu nhập, rủi ro, điểm đánh giá tín dụng và trả đúng hạn (sử
dụng dữ liệu khoảng). Sử dụng 650 quan sát làm dữ liệu phân tích. Dùng phần mềm
Khai thác dữ liệu nếu có hoặc thay thế bằng Excel. Nhận diện các nhóm được hình
thành và thông tin gì chúng thể hiện ra.
6. Áp dụng thủ tục mạng thần kinh Kohonen cho file dữ liệu về người xin vay nợ sử dụng
giá trị chuẩn hóa của 5 biến đầu vào : tuổi, thu nhập, rủi ro, điểm đánh giá tín dụng và
trả đúng hạn (sử dụng dữ liệu khoảng). Sử dụng 650 quan sát làm dữ liệu phân tích.
Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng Excel. Nhận diện các
nhóm được hình thành và thông tin gì chúng thể hiện ra.
7. Áp dụng thủ tục k-means cho file dữ liệu về người xin việc sử dụng giá trị chuẩn hóa
của 5 biến đầu vào : tuổi, bang, bằng cấp, chuyên môn, kinh nghiệm. Cài đặt k đến 4,
đại diện 4 giá trị đầu ra chưa biết. Sử dụng toàn bộ 500 quan sát làm dữ liệu phân tích.
Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng Excel. Nhận diện các
nhóm được hình thành và thông tin gì chúng thể hiện ra.
8. Áp dụng thủ tục Hai bước cho file dữ liệu về người xin việc sử dụng giá trị chuẩn hóa
của 4 biến đầu vào : tuổi, bang, bằng cấp, chuyên môn. Sử dụng toàn bộ 500 quan sát
làm dữ liệu phân tích. Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng
Excel. Nhận diện các nhóm được hình thành và thông tin gì chúng thể hiện ra.
9. Áp dụng thủ tục mạng thần kinh Kohonen cho file dữ liệu về người xin việc sử dụng giá
trị chuẩn hóa của 3 biến đầu vào : tuổi, thu nhập, rủi ro. Sử dụng toàn bộ 500 quan sát
làm dữ liệu phân tích. Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng
Excel. Nhận diện các nhóm được hình thành và thông tin gì chúng thể hiện ra.
10. Áp dụng thủ tục k-means cho 10.000 quan sát trong file dữ liệu về chi tiêu sử dụng giá
trị chuẩn hóa cho các biến từ tuổi đến churn. Cài đặt k đến 5. Dùng phần mềm Khai thác

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 93
Khai thác dữ liệu trong kinh doanh Chương 5

dữ liệu nếu có hoặc thay thế bằng Excel. Nhận diện các nhóm được hình thành và thông
tin gì chúng thể hiện ra.
11. Áp dụng thủ tục Hai bước cho file dữ liệu về người xin vay nợ sử dụng giá trị chuẩn
hóa của 3 biến đầu vào : tuổi, thu nhập, rủi ro. Sử dụng 650 quan sát làm dữ liệu phân
tích. Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng Excel. Nhận diện các
nhóm được hình thành và thông tin gì chúng thể hiện ra.
12. Áp dụng thủ tục mạng thần kinh Kohonen cho file dữ liệu về người xin việc sử dụng
giá trị chuẩn hóa của 3 biến đầu vào : tuổi, thu nhập, rủi ro. Sử dụng 500 quan sát làm
dữ liệu phân tích. Dùng phần mềm Khai thác dữ liệu nếu có hoặc thay thế bằng Excel.
Nhận diện các nhóm được hình thành và thông tin gì chúng thể hiện ra.

Kết chú

1
. M. Y. Kiang and A. Kumar, “An Evaluation of Self-Organizing Map Networks as a Robust
Alternative to Factor Analysis in Data Mining Application,” Information Systems Research, volume
12, number 2, 2001, pp. 177-194.
2
. P. Finerty, “Improving Customer Care Through Knowledge Management,” Cost & Management,
71:9, November 1997, pp. 33.
3
. G. Linoff, “Which Way to the Mine?” As/400 Systems Management, 26:1, January 1998, pp. 42-44.
4
. M. J. A. Berry and G. Linoff, Data Mining Techniques, New York: John Wiley & Sons, 1997.
5
. R. A. Johnson and D. W. Wichern, Applied Multivariate Statistical Analysis, Upper Saddle River,
NJ: Prentice Hall, 1998.
6
. N. M. Adams, D.J. Hand, and R. J. Till, “Mining for Classes and Patterns in Behavioural Data,” The
Journal of the Operational Research Society, volume 52, number 9, 2001, pp. 1017-1024.
7
. K. A. Smith, R. J. Willis, and M. Brooks, “An Analysis of Customer Retention and Insurance Claim
Patterns Using Data Mining: A Case Study,” The Journal of the Operational Research Society,
volume 51, number 5, 2000, pp. 532-541.
8
. S. Papadimitriou and K. Terzidis, “Growing Kernel-Based Self-Organized Maps Trained with
Supervised Bias,” Intelligent Data Analysis, 8, 2004, pp. 111-130.
. C.-F. Tsai, C.-W. Tsai, H.-C. Wu, and T. Yang, “ACODF: A Novel Data Clustering Approach for
9

Mining in Large Databases,” The Journal of Systems and Software, 73, 2004, pp. 133-145.
. N. Friedman, M. Linial, I. Nachman, and D’Peier, “Using Bayesian Networks to Analyze
10

Expression Data,” Journal of Computational Biology, 7, 200, pp. 601-620.


. M. Drobics, U. Bodenhofer, W. Winiwarter, “Mining Clusters and Corresponding Interpretable
11

Descriptions – A Three-Stage Approach,” Expert Systems 19(4), 2002, pp. 224-234.


. C.-F. Tsai, C.-W. Tsai, H.-C. Wu, and T. Yang, “ACODF: A Novel Data Clustering Approach for
12

Data Mining in Large Databases,” The Journal of Systems and Software, 73, 2004, pp. 133-145.
13
. T. Kohonen, Self-Organizing Maps, Berlin: Springer-Verlag, 1997.
14
. J. Mateyaschuk, “Market Monitor,” Information Week, issue 711, November 30, 1998, p. 135.
15
. D. Coleman, X. Dong, J. Hardin, D. M. Roche, and D. L. Woodruff, “Some Computational Issues
in Cluster Analysis with No a Prior Metric,” Computational Statistics & Data Analysis, 31, 1999, pp.
1-11.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 94

You might also like