You are on page 1of 9

quản trị ngân hàng & doanh nghiệp

Ứng dụng cây quyết định vào việc


phân loại khách hàng vay tiêu dùng
tại ngân hàng thương mại
ThS. NGUYỄN DƯƠNG HÙNG

Học viện Ngân hàng

Những năm gần đây, kỹ thuật khai phá dữ liệu (DM-Data


Mining) đã được nhiều ngân hàng đề xuất, khuyến nghị sử
dụng trong việc hỗ trợ ra quyết định của ngân hàng. Khai
phá dữ liệu có thể giúp cho các ngân hàng có những chiến
lược cạnh tranh tốt hơn trên thị trường trong việc phân khúc
khách hàng, chấm điểm tín dụng, phê duyệt, quảng bá, giới
thiệu sản phẩm, phát hiện các giao dịch gian lận. Một trong
những công cụ khai phá dữ liệu hiệu quả hiện nay là sử dụng
cây quyết định (Decision Tree) để tìm ra các luật phân lớp.
Bài báo này sẽ nghiên cứu về việc ứng dụng cây quyết định để
phân loại khách hàng vay tiêu dùng tại các ngân hàng thương
mại, từ đó có cơ sở cho các quyết định cho vay.

1. Tổng quan về khai phá dữ liệu and Data Understanding). Ở bước này,
hai phá dữ liệu là một quá trình quan các chuyên gia trong lĩnh vực, ngành đặc
trọng trong quá trình tìm kiếm tri thức thù cần thảo luận với các chuyên gia tin
từ dữ liệu. Trong quá trình này, các học, để xác định được chúng ta mong
chuyên gia bao gồm cả chuyên muốn khám phá những gì, thống nhất
gia về công nghệ thông tin và chuyên gia giải pháp cho quá trình khám phá dữ liệu
của các doanh nghiệp, phải đặt ra được bài (muốn có các qui luật hay muốn phân lớp,
toán là cần các thông tin gì cho việc hỗ trợ phân cụm dữ liệu…). Đây là một giai đoạn
kinh doanh, lấy các thông tin đó như thế quan trọng vì nếu xác định sai vấn đề thì
nào và lấy ở đâu, bằng phương pháp nào toàn bộ quá trình trở nên vô ích.
cho hiệu quả nhất. Đó chính là bài toán Bước 2: Chuẩn bị dữ liệu (Data
về khai phá dữ liệu tìm kiếm tri thức hỗ preparation) gồm các bước sau: (i) Thu
trợ quyết định. Thông thường một bài toán thập dữ liệu (Data gathering); (ii) Làm
như vậy gồm các bước: sạch dữ liệu (Data cleaning); (iii) Tích hợp
Bước 1: Xác định vấn đề và lựa chọn dữ liệu (Data integeration); (iv) Chọn dữ
nguồn dữ liệu (Problem Understanding liệu (Data selection); (v) Biến đổi dữ liệu

50 SOÁ 144 - THAÙNG 5.2014


(Data transformation). Hình 1. Quá trình phát hiện tri thức trong CSDL
Đây cũng là một bước rất
quan trọng vì nếu dữ liệu đầu
vào không chính xác thì hiển
nhiên sẽ không thể nào có một
kết quả chính xác, không có giá
trị hỗ trợ ra quyết định.
Bước 3: Khai phá dữ liệu
(Data Mining), đây là bước xác
định nhiệm vụ khai phá dữ liệu
và lựa chọn kỹ thuật khai phá
dữ liệu. Kết quả của quá trình
này sẽ tìm ra các tri thức, mô
hình hay các quy luật tiềm ẩn này kết xuất ra các tri thức ẩn lôgic nói trên vì chúng là thông
bên trong dữ liệu. chứa trong dữ liệu, giúp cho tin dư thừa, không có giá trị.
Bước 4: Đánh giá mẫu việc dự báo trong kinh doanh, Bởi vậy, đây là một quá trình
(Partern Evalution): Đánh giá các hoạt động sản xuất. Qui rất quan trọng vì dữ liệu này
xem tri thức thu được có chính trình gồm có 6 giai đoạn[2]: nếu không được “làm sạch-
xác và có giá trị hay không, Giai đoạn 1: Thu thập dữ tiền xử lý- chuẩn bị trước” thì
nếu không có thể quay lại các liệu (Data Gathering). Đây là sẽ dẫn đến những kết quả sai
bước trên. Việc đánh giá này bước tập hợp các dữ liệu được lệch nghiêm trọng, từ đó sẽ dẫn
được thực hiện thông qua các khai thác trong một CSDL, một tới các quyết định không chính
chuyên gia trong từng lĩnh vực kho dữ liệu và thậm chí các dữ xác.
và người dùng cuối (end user) liệu từ các nguồn ứng dụng Giai đoạn 4: Chuyển đổi dữ
là chính, chứ không phải là các Web. liệu (Data Transformation).
chuyên gia tin học. Giai đoạn 2: Trích lọc dữ Dữ liệu thô sẽ được chuyển đổi
Bước 5: Biểu diễn tri thức liệu (Data Selection). Ở giai sang các dạng dữ liệu phù hợp
và triển khai (Knowlegde đoạn này, dữ liệu được lựa chọn với mục đích khai thác.
Presentation and Deployment): hoặc phân chia theo một số tiêu Giai đoạn 5: Phát hiện và
Biểu diễn tri thức phát hiện chuẩn nào đó, ví dụ chọn tất cả trích mẫu dữ liệu (Pattern
được dưới dạng tường minh, những khách hàng có tài khoản Extraction and Discovery).
thân thiện và hữu ích với đa số thế chấp là nhà ở của chính họ. Ở giai đoạn này, nhiều thuật
người dùng và tiến hành đưa Giai đoạn 3: Làm sạch, toán khác nhau được sử dụng
tri thức phát hiện được vào các tiền xử lý và chuẩn bị dữ liệu để trích ra các mẫu từ dữ liệu.
ứng dụng cụ thể. (Cleansing, Pre-processing Thuật toán thường dùng là
Một cách tổng quát, khám and Preparation). Đây là một nguyên tắc phân loại, nguyên
phá tri thức là một quá trình bước rất quan trọng trong quá tắc kết hợp hoặc các mô hình
kết xuất ra tri thức từ kho dữ trình khai phá dữ liệu. Một số dữ liệu tuần tự.
liệu mà trong đó khai phá dữ lỗi thường mắc phải trong khi Giai đoạn 6: Đánh giá
liệu là công đoạn quan trọng gom dữ liệu là dữ liệu không kết quả mẫu (Evaluation of
nhất[2],[5]. đủ tính chặt chẽ, logic; dữ liệu Result). Đây là giai đoạn cuối
Trong quá trình trên (Hình thường chứa các giá trị không trong quá trình khai phá dữ
1), khai phá dữ liệu là một khái có ý nghĩa và không có khả liệu. Ở giai đoạn này, các mẫu
niệm được dùng để mô tả quá năng kết nối. Giai đoạn này dữ liệu được chiết xuất ra bởi
trình phát hiện tri thức trong cơ sẽ tiến hành xử lý những dạng phần mềm khai phá dữ liệu.
sở dữ liệu (CSDL). Quá trình dữ liệu không chặt chẽ, không Không phải bất cứ mẫu dữ liệu

THAÙNG 5.2014 - SOÁ 144 51


Hình 2. Kiến trúc điển hình của hệ thống khai phá dữ liệu

nào cũng đều hữu ích. Vì vậy, kinh doanh trở thành một vấn hiện các giao dịch gian lận,
cần phải ưu tiên những tiêu đề thiết yếu. Bằng cách sử quản lý tiền mặt và các hoạt
chuẩn đánh giá để chiết xuất dụng khai phá dữ liệu để phân động dự báo, tối ưu hóa danh
ra các tri thức (Knowledge) tích, các ngân hàng có thể dự mục đầu tư chứng khoán và xếp
cần thiết. Quá trình khai phá đoán với độ chính xác tăng lên hạng đầu tư. Các ngân hàng đã
dữ liệu được mô hình hóa một về những tình huống liên quan và đang sử dụng có hiệu quả kỹ
cách tổng quát như Hình 2. đến các quyết định kinh doanh thuật khai phá dữ liệu trong các
2. Ứng dụng khai phá dữ của mình, ví dụ khách hàng sẽ lĩnh vực sau:
liệu trong lĩnh vực ngân hàng phản ứng thế nào với việc điều a. Marketing: Một trong
Ngành công nghiệp ngân chỉnh lãi suất, trong đó khách những lĩnh vực được ứng dụng
hàng trên thế giới đã trải qua hàng nào sẽ có khả năng chấp rộng rãi nhất cho ngành ngân
những thay đổi to lớn trong nhận sự chào hàng sản phẩm hàng của kỹ thuật khai phá
cách thức kinh doanh của họ. mới, khách hàng nào sẽ có dữ liệu là lĩnh vực quảng bá
Áp dụng công nghệ thông tin nguy cơ rủi ro cao hơn, và làm sản phẩm. Bộ phận tiếp thị và
vào công việc kinh doanh ngân thế nào để mối quan hệ khách bán hàng của các ngân hàng có
hàng đã tạo nên sự thay đổi hàng ngày càng có lợi. thể sử dụng kỹ thuật khai phá
lớn, theo đó, việc thực hiện Lĩnh vực khai phá dữ liệu dữ liệu để phân tích CSDL về
giao dịch đã trở nên dễ dàng, được được ứng dụng trong khách hàng. Bộ phận khai phá
đồng thời khối lượng dữ liệu ngành công nghiệp ngân hàng dữ liệu của các ngân hàng thực
từ các giao dịch này đã tăng tương đối rộng rãi, trong đó hiện các phân tích khác nhau
lên đáng kể. Việc phân tích số bao gồm việc phân khúc khách trên bộ dữ liệu thu thập được
lượng dữ liệu thô khổng lồ này hàng và phân chia lợi nhuận, để xác định hành vi của người
và chuyển đổi nó thành thông chấm điểm và phê duyệt tín tiêu dùng với sự tham khảo sản
tin hữu ích cho các ngân hàng dụng, dự đoán thanh toán mặc phẩm, giá và kênh phân phối.
nhằm hỗ trợ ra các quyết định định, quảng bá sản phẩm, phát Với sự phản hồi của khách

52 SOÁ 144 - THAÙNG 5.2014


hàng đối với các sản phẩm hiện việc sử dụng các đặc điểm như hàng cần phải đầu tư các nguồn
có và các sản phẩm mới, các lịch sử tín dụng, thời gian làm lực để hiểu rõ hơn về khách
ngân hàng sẽ có các chiến lược việc và thời gian cư trú, giúp hàng hiện tại và tiềm năng của
quảng bá sản phẩm, nâng cao ngân hàng đánh giá khách hàng họ. Sử dụng các công cụ khai
chất lượng sản phẩm và dịch và quyết định khách hàng đó có phá dữ liệu phù hợp để tìm ra
vụ và đạt được lợi thế cạnh là một ứng cử viên tốt cho một các sản phẩm và dịch vụ thích
tranh. Kỹ thuật khai phá dữ khoản vay, hoặc có rủi ro nào hợp có thể cung cấp cho khách
liệu giúp ngân hàng phân tích tiềm ẩn nhằm giảm thiểu rủi ro hàng là một cách hiệu quả để
các xu hướng trong quá khứ, trong cấp tín dụng. đạt được mục tiêu này. Kỹ thuật
xác định nhu cầu hiện tại và dự c. Phát hiện gian lận: Một khai phá dữ liệu rất hữu ích
báo hành vi khách hàng với các lĩnh vực khác trong khai phá trong tất cả ba giai đoạn trong
sản phẩm và dịch vụ khác nhau dữ liệu có thể được sử dụng một chu kỳ mối quan hệ khách
để chuẩn bị cho các cơ hội kinh trong ngành công nghiệp ngân hàng: Tìm kiếm khách hàng,
doanh mới. Kỹ thuật khai thác hàng là việc phát hiện gian lận. tăng giá trị của khách hàng và
dữ liệu cũng giúp xác định Với sự giúp đỡ của kỹ thuật duy trì khách hàng. Bằng cách
khách hàng nào sẽ mang lại khai phá dữ liệu, các hành phân tích các dữ liệu trong quá
lợi nhuận và khách hàng nào động gian lận ngày càng được khứ, khai phá dữ liệu có thể
không mang lại lợi nhuận. Các phát hiện nhiều hơn. Có hai giúp các ngân hàng dự đoán số
kỹ thuật khai phá dữ liệu có thể phương pháp tiếp cận phổ biến lượng khách hàng có khả năng
được sử dụng để xác định phản đã được phát triển bởi tổ chức thay đổi thẻ tín dụng của họ, từ
hồi của khách hàng như thế nào tài chính để phát hiện các mô đó họ có thể lập kế hoạch và
khi ngân hàng thực hiện điều hình gian lận[4]. Phương pháp triển khai ưu đãi đặc biệt khác
chỉnh lãi suất. tiếp cận thứ nhất, một ngân nhau để giữ lại những khách
b. Quản lý rủi ro: Khai phá dữ hàng cần phải sử dụng đến kho hàng của mình.
liệu được sử dụng rộng rãi để dữ liệu của bên thứ ba và sử Kỹ thuật khai phá dữ liệu
quản lý rủi ro trong ngành công dụng các kỹ thuật khai phá dữ giúp ngân hàng phân tích và
nghiệp ngân hàng[4]. Khi cung liệu để xác định mô hình gian nhận định được đâu là các
cấp thẻ tín dụng mới cho khách lận, sau đó, các ngân hàng có khách hàng trung thành và đâu
hàng hay phê duyệt các khoản thể tham chiếu chéo những là các khách hàng có xu hướng
vay, các ngân hàng phải kiểm mẫu với CSDL riêng của mình. chuyển sang các ngân hàng
tra các thông tin khác nhau liên Phương pháp thứ hai, gian lận khác với mong muốn một dịch
quan đến khoản tín dụng của được nhận dạng mẫu dựa trên vụ tốt hơn, giúp các ngân hàng
mình. Kỹ thuật khai phá dữ liệu các mẫu thông tin nội bộ riêng hoạt động tốt hơn và giữ chân
giúp phân biệt người trả nợ kịp của mình mà không phải nhờ khách hàng của mình.
thời với những người không có vào bên thứ ba. Tuy nhiên, trên 3. Ứng dụng cây quyết định
khả năng trả nợ kịp thời. thực tế hầu hết các ngân hàng vào phân loại khách hàng
Trên thực tế, điểm tín dụng là đang sử dụng kết hợp cả hai trong quy trình tín dụng
một trong những công cụ quản phương pháp tiếp cận trên. a. Tổng quan về quy trình tín
lý rủi ro tài chính trước tiên d. Quản trị quan hệ khách dụng
được phát triển[4], là căn cứ hàng: Trong ngành ngân hàng, Để chuẩn hoá quá trình tiếp
giúp ngân hàng đưa ra những việc quản trị và phát triển xúc, phân tích, cho vay và thu
quyết định cho vay. Khai phá các mối quan hệ khách hàng nợ đối với khách hàng, các
dữ liệu có thể tìm ra được hành (CRM: Customer Relationship ngân hàng thường đặt ra quy
vi tín dụng của từng khách hàng Management) một cách hiệu trình phân tích tín dụng[4].
cá nhân với các khoản vay trả quả là một vấn đề quan trọng. Đó chính là các bước (hoặc
góp, thế chấp, tín dụng, bằng Để làm được điều này, các ngân nội dung công việc) mà cán

THAÙNG 5.2014 - SOÁ 144 53


bộ tín dụng, các phòng ban có bài báo này sẽ sử dụng thuật định là một trong các phương
liên quan trong ngân hàng phải toán ID3 để xây dựng cây quyết pháp quy nạp được dùng phổ
thực hiện để ra một quyết định định phân loại khách hàng vay biến nhất trong quá trình xử lý
tín dụng. Việc thiết lập một quy vốn tại ngân hàng. dữ liệu. Một cách tổng thể, cây
trình tín dụng và không ngừng Thuật toán cây quyết định quyết định có các tính chất sau:
hoàn thiện nó đặc biệt quan là công cụ được dùng để phân Mỗi nút trong (Internal Node)
trọng đối với một ngân hàng lớp dữ liệu, mỗi cây quyết định biểu diễn một thuộc tính cần
thương mại. Một quy trình tín tượng trưng cho một sự quyết kiểm tra giá trị (An attribute to
dụng hợp lý sẽ giúp cho ngân định của một lớp các dữ kiện be tested) đối với các các tập
hàng nâng cao chất lượng tín nào đó. Mỗi nút trong cây là thuộc tính.
dụng và giảm thiểu rủi ro tín tên của một lớp hay một phép Nút lá (Leaf Node) hay còn
dụng. thử thuộc tính cụ thể nào đó, gọi là nút trả lời biểu thị cho một
Về mặt quản lý, quy trình tín phép thử này phân chia không lớp các trường hợp mà nhãn
dụng là cơ sở cho việc phân gian trạng thái các dữ kiện tại của nó là tên của lớp, nó biểu
định quyền, trách nhiệm cho nút đó thành các kết quả có thể diễn một lớp (a classififcation).
các bộ phận trong hoạt động tín đạt được của phép thử. Mỗi tập Nút nhánh (Branch) từ một
dụng; là cơ sở để thiết lập các con được phân chia của phép nút sẽ tương ứng với một giá
hồ sơ, thủ tục vay vốn. Thông thử là không gian con của các trị có thể của thuộc tính gắn với
thường, một qui trình tín dụng sự kiện, nó tương ứng với một nút đó.
gồm có: Lập hồ sơ vay vốn, vấn đề con của sự phân lớp. Nhãn (Lable) của nút này là
phân tích tín dụng, ra quyết Các cây quyết định được dùng tên của thuộc tính và có một
định, giải ngân, giám sát và để hỗ trợ quá trình ra quyết nhánh nối nút này đến các cây
thanh lý hợp đồng. định. con ứng với mỗi kết quả có thể
b. Lựa chọn thuật toán Cây quyết định (Decision có phép thử. Nhãn của nhánh
Để ra quyết định tín dụng Tree) có thể định nghĩa, diễn này là các giá trị của thuộc tính
chính xác và để đảm bảo tính giả bằng một tập các luật IF– đó. Nút trên cùng gọi là nút
khách quan, các ngân hàng có THEN, với cách trình bày như gốc.
thể sử dụng các tri thức/thông vậy nó sẽ giúp cho người đọc Để phân lớp mẫu dữ liệu
tin được trích xuất được từ hồ dễ đọc và dễ hiểu. Cây quyết chưa biết, giá trị các thuộc tính
sơ khách hàng đã có. Các tri định có thể thực hiện được cả của mẫu được đưa vào kiểm tra
thức/thông tin này sẽ giúp ngân với các dữ liệu chứa lỗi (noisy trên cây quyết định. Mỗi mẫu
hàng tránh được rủi ro như data). Về bản chất, cây quyết tương ứng có một đường đi từ
từ chối một khách hàng tiềm
Hình 3. Cây quyết định trong việc ra quyết định vay vốn
năng hoặc cho một khách hàng
không có khả năng thanh toán
vay vốn. Thuật toán cây quyết
định có thể dự đoán hoặc phân
loại khách hàng bằng cách dựa
trên cơ sở dữ liệu lịch sử đã có.
Thuật toán cây quyết định bao
gồm thuật toán ID3, thuật toán
C4.5, thuật toán CART. Trong
các thuật toán đó, thuật toán
ID3 là một thuật toán được
đánh giá có một cách thể hiện
rõ ràng, dễ hiểu nhất. Do vậy,

54 SOÁ 144 - THAÙNG 5.2014


gốc đến lá và lá biểu diễn dự thông tin thu thêm (Information chí phân lớp nào đó, hay các
đoán giá trị phân lớp của mẫu Gain- IG) là lượng Entropy còn đối tượng đó thuộc cùng một
đó. lại khi tập các đối tượng trong dạng giống nhau nào đó. Các
Tiêu chí để đánh giá tìm điểm DT được phân hoạch theo một lớp hay các dạng này được gọi
chia là rất quan trọng, chúng thuộc tính điều kiện c nào đó, là nhãn của nút lá của cây, còn
được xem là một tiêu chuẩn được xác định theo công thức tại mỗi nút không phải là nút lá
“Heuristic”, là tiêu chuẩn mà sau[6]: thì nhãn của nó là tên thuộc tính
việc tìm kiếm dựa vào tri thức IG (U,c) = Entropy (U) − được chọn trong số các thuộc
hiện tại và trong quá khứ, thỏa − ∑|Uv|Entropy (U) ⁄ |U| tính được dùng để kiểm tra có
mãn các tính chất : (i) Xác định (v ϵ Vc) giá trị IG (Information Gain)
phương án rõ ràng, không mập Trong đó, Vc là tập các giá lớn nhất. Đại lượng IG được
mờ và có thể thực thi được; trị của thuộc tính c, Uv là tập tính thông qua hàm Entropy.
(ii) có tính hữu hạn, sau một các đối tượng trong DT có giá Như vậy, IG là đại lượng được
số bước phải có lời giải cho trị thuộc tính c bằng v. Giá trị dùng để đưa ra độ ưu tiên cho
bài toán; (iii) tính đúng đắn, IG(U,c) được sử dụng làm độ thuộc tính nào được chọn trong
chắc chắn có những lời giải đo lựa chọn thuộc tính phân quá trình xây dựng cây quyết
tốt mặt dù đó chưa phải là tốt chia dữ liệu tại mỗi nút trong định.
nhất để phân chia dữ liệu. Ý thuật toán xây dựng cây quyết c. Minh họa thuật toán ID3
tưởng chính trong việc đưa định ID3. Thuộc tính được Để minh họa cho thuật này,
ra các tiêu chí là làm sao cho chọn là thuộc tính cho lượng chúng tôi đưa một ví dụ về bài
các tập con được phân chia thông tin thu thêm lớn nhất. Ý toán phân loại xem một người
càng trở nên “trong suốt” (tất nghĩa của đại lượng IG trong có được ngân hàng xét duyệt
cả các bộ thuộc về cùng một lĩnh vực lý thuyết công nghệ cho vay với các tham số (Tuổi,
lớp) càng tốt. Thuật toán dùng thông tin: IG của tập S chỉ ra số Tài khoản hiện tại, Thu nhập,
độ đo lượng thông tin thu thêm lượng bít giảm đối với việc mã Số con). Xét bảng quyết định
(Information Gain- IG) để xác hóa lớp của một phần tử c được DT = {U, C U {d}}(Bảng 1)
định điểm chia[2]. Độ đo này lấy ra ngẫu nhiên từ tập U. Tập dữ liệu này gồm có 12
dựa trên cơ sở lý thuyết thông Thuật toán ID3[1] là giải thuật mẫu, một mẫu biểu diễn cho
tin của nhà toán học Claude tìm kiếm tham lam (greedy một khách hàng có được cho
Shannon, được xác như sau: search) dùng để xây dựng cây vay vốn hay không gồm các
Xét bảng quyết định DT= quyết định. Ý tưởng chính của thuộc tính Tuổi, Số con, Thu
(U, C U {d}), số giá trị (nhãn thuật toán ID3 là xây dựng cây nhập và Tài khoản hiện tại; và
lớp) có thể của d là k. Khi đó quyết định (Decission Tree) đều có một thuộc tính quyết
Entropy của tập các đối tượng bằng cách ứng dụng từ trên định có cho vay vốn hay không.
trong DT được định nghĩa bởi: xuống (Top-Down), bắt đầu từ Thuộc tính quyết định chỉ có
Entropy (U) = −∑pilog2pi (i một tập các đối tượng và các hai giá trị Có, Không. Mỗi
= 1 → k) thuộc tính của nó. Tại mỗi nút thuộc tính đều có một tập các
Trong đó pi là tỉ lệ các đối của cây một thuộc tính được giá trị hữu hạn. Thuộc tính Tuổi
tượng trong DT mang nhãn kiểm tra, kết quả của phép có ba giá trị: Trẻ, Già, Trung
lớp i. Ý nghĩa của đại lượng kiểm tra này được sử dụng để niên; Số con có ba giá trị: Hai
Entropy trong lĩnh vực lý phân chia tập đối tượng theo con, Không con, Một con; Thu
thuyết công nghệ thông tin: kết quả kiểm tra trên. Quá trình nhập có hai giá trị: Cao, Trung
Entropy của tập U chỉ ra số này được thực hiện một cách bình và Tài khoản hiện tại có
lượng bít cần thiết để mã hóa lặp lại (đệ quy) cho tới khi tập hai giá trị: Có, Không. Các giá
lớp của một phần tử được lấy đối tượng trong cây con được trị này là ký hiệu dùng để biểu
ra ngẫu nhiên từ tập U. Lượng sinh ra thuần nhất theo một tiêu diễn bài toán.

THAÙNG 5.2014 - SOÁ 144 55


Bảng 1. Dữ liệu mẫu 2⁄3log22⁄3) + 6⁄12(−1⁄6log21⁄6 −
Khách Tài Quyết 5⁄6log25⁄6)] = 0.314
Tuổi Số con Thu nhập
hàng khoảnHT định
Theo cách tính tương tự như
1 Trẻ Có Không con Cao Có
trên, ta tính được:
2 Trung niên Không Một con Cao Không
IG(U,Tài khoản hiện tại) =
3 Trung niên Không Hai con Cao Không
0.918 − [4⁄12(−3⁄4log23⁄4 −
4 Trẻ Không Hai con Trung bình Không
1⁄4log21⁄4) + 8⁄12(−1⁄8log21⁄8
5 Trung niên Có Hai con Thấp Có
− 7⁄8log27⁄8)] = 0.285
6 Già Không Một con Cao Không
IG(U,Số con) = 0.918 −
7 Già Không Hai con Cao Không
[3⁄12(−1⁄3log21⁄3 − 2⁄3log22⁄3)
8 Già Không Hai con Trung bình Không
+ 8⁄12(−2⁄8log22⁄8 −
9 Trẻ Có Hai con Thấp Có
6⁄8log26⁄8)] = 0.148
10 Già Không Một con Trung bình Có
IG(U,Thu nhập) = 0.918 −
11 Già Có Hai con Trung bình Không
[6⁄12(−1⁄6log21⁄6 − 5⁄6log25⁄6)
12 Già Không Hai con Cao Không
+ 4⁄12(−1⁄4log21⁄4 −
3⁄4log23⁄4)] = 0.323
Thuật toán xây dựng cây có một bộ {5} có nhãn lớp là Thuộc tính “Thu nhập” là
quyết định với dữ liệu ở Bảng “CÓ” và có hai bộ {2, 3} có thuộc tính có chỉ số IG lớn nhất
1 như sau: nhãn lớp là “KHÔNG”; nên sẽ được chọn là thuộc tính
Trước tiên nút lá được khởi Giá trị “Già” có một bộ {10} phân chia. Do đó, thuộc tính
tạo gồm các mẫu từ 1 đến 12. có nhãn lớp “CÓ” và năm bộ “Thu nhập” được chọn làm
Để tìm điểm chia tốt nhất, phải {6, 7, 8, 11, 12} có nhãn lớp nhãn cho nút gốc, ba nhánh
tính toán chỉ số IG của tất cả “KHÔNG”. được tạo ra lần lượt với tên là:
các thuộc tính trên. Trước tiên,
tính Entropy cho toàn bộ tập Hình 4. Cây sau khi chọn thuộc tính Thu nhập (ID3)
huấn luyện U gồm: bốn bộ {1,
5, 9, 10} có giá trị thuộc tính
nhãn là “CÓ” và tám bộ {2, 3,
4, 6, 7, 8, 11, 12} có thuộc tính
nhãn là “KHÔNG”, do đó:
Entropy (U) = − 4⁄12
log24⁄12 − 8⁄12 log28⁄12 =
0.918
Tính IG cho từng thuộc tính:
Thuộc tính “Tuổi có ba giá
trị là “Trẻ”, “Trung niên” và
“Già”. Căn cứ vào bảng dữ liệu
ta có:
| Uv |
IG
= (U , Tuoi) Entropy (U ) − ∑
v∈VOutlook | U |
Entropy (U v )
T h e o “Cao”, “Trung bình”, “Thấp”.
công thức Hơn nữa nhánh “Thấp” có các
Giá trị của “Trẻ” có ba bộ {1, trên, độ đo lượng thông tin thu mẫu {5, 9} cùng thuộc một
9} có giá trị thuộc tính nhãn thêm của thuộc tính “Tuổi” xét lớp “CÓ ” nên nút lá được tạo
là “CÓ” và có một bộ {4} có trên U là: ra với nhãn là “CÓ”. Kết quả
nhãn lớp là “KHÔNG”. = 0.918 − [3⁄12(−2⁄3log22⁄3 − phân chia sẽ là cây quyết định
Giá trị của “Trung niên” 1⁄3log21⁄3) + 3⁄12(−1⁄3log21⁄3 − như Hình 4.

56 SOÁ 144 - THAÙNG 5.2014


Bước tiếp theo gọi thuật toán Hình 5. Cây sau khi chọn thuộc tính Tuổi (ID3)
đệ quy: ID3(U1, C-{Thu nhập},
{d})
Tương tự, để tìm điểm chia
tốt nhất tại thuật toán này, phải
tính toán chỉ số IG của các
thuộc tính “Tuổi”, “Tài khoản
hiện tại”, “Số con”.
- Trước tiên, ta cũng tính
Entropy cho toàn bộ tập huấn
luyện trong U1 gồm một bộ {1}
có thuộc tính nhãn là “CÓ ”
và năm bộ {2, 3, 6, 7, 12} có
thuộc tính nhãn là “KHÔNG”:
Entropy (U1) = − 1⁄6 log21⁄6
− 5⁄6 log25⁄6 = 0.65
- Tiếp theo tính IG cho thuộc
tính “Tuổi”, thuộc tính này
có ba giá trị là “Trẻ”, “Trung tại”, “Số con” là như nhau, ta Bước tiếp theo gọi thuật
niên” và “Già”. Nhìn vào bảng có thể chọn bất kỳ thuộc tính toán đệ quy: ID3(U2, C-{ Thu
dữ liệu: nào để phân chia. nhập}, {d})
+ Với giá trị “Trẻ” chỉ có Giả sử ta chọn thuộc tính Tính một cách tương tự như
một bộ {1} có giá trị thuộc tính “Tuổi” để phân chia, do đó, trên ta có:
nhãn là “CÓ ”. thuộc tính “Tuổi” làm nhãn Entropy (U2) = −1⁄4log21⁄4 −
+ Tương tự giá trị “Trung cho nút bên trái nối với nhánh 3⁄4log23⁄4 = 0.811
niên” có hai bộ {2, 3} đều có “Cao”. Thuộc tính này có ba IG(U2, Tuổi) = 0.811 −
nhãn lớp là “KHÔNG”. giá trị “Trẻ”, “Trung niên” và [1⁄4(−1⁄1log21⁄1) + 3⁄4(−
+ Với giá trị “Già” có ba “Già” nên ta tiếp tục tạo thành 1⁄3log21⁄3 − 2⁄3log22⁄3)] =
bộ {6, 7, 12} đều có nhãn lớp ba nhánh mới là “Trẻ”, “Trung 0.811− 0.689 = 0.123
“KHÔNG”. niên” và “Già”: IG(U2, Tài khoản hiện tại)
Do đó, độ đo lượng thông tin + Với nhánh “Trẻ” gồm một = 0.811 − [1⁄4(−1⁄1log21⁄1) +
thu thêm của thuộc tính “Tuổi” mẫu {1} và có giá trị quyết 3⁄4(− 1⁄3log21⁄3 − 2⁄3log22⁄3)]
xét trên U1 là: định là “CÓ” nên ta tạo nút lá = 0.811− 0.689 = 0.123
IG(U1, Tuổi) = 0.65 − là “CÓ”. IG(U2, Số con) = 0.811
[1⁄6(−1⁄1log21⁄1) + 2⁄6( − + Với nhánh “Trung niên” − [1⁄3(−1⁄1log21⁄1) + 3⁄4(−
2⁄2log22⁄2) + 3⁄6(−3⁄3log23⁄3)] gồm hai mẫu {2, 3} và có cùng 3⁄3log23⁄3)] = 0.811− 0 = 0.811
= 0.65 giá trị quyết định là “KHÔNG” Ta thấy chỉ số IG của “Số
Tính tương tự ta cũng có: nên tạo nút lá là “KHÔNG”. con” là lớn nhất, nên nó được
IG(U1, Tài khoản hiện tại) = + Với nhánh “Già” có ba chọn để phân chia. Do đó,
0.65 − [1⁄6(−1⁄1log21⁄1) + 5⁄6( mẫu {6, 7, 12} và đều có giá trị thuộc tính “Số con” làm nhãn
− 5⁄5log25⁄5)] = 0.65 quyết định là “KHÔNG” nên ta cho nút bên phải nối với nhánh
IG(U1, Số con) = 0.65 − tạo nút lá là “KHÔNG”. “Trung bình”.
[1⁄6(−1⁄1log21⁄1) + 5⁄6( − Sau khi thực hiện xong thuật Trong U2, thuộc tính này có
5⁄5log22⁄2) = 0.65 toán đệ quy: ID3(U1, C-{Thu hai giá trị “Hai con” và “Một
Ta thấy chỉ số IG của ba thuộc nhập}, {d}), ta có cây như con” nên ta tiếp tục tạo thành
tính “Tuổi”, “Tài khoản hiện Hình 5. hai nhánh mới là “Hai con” và

THAÙNG 5.2014 - SOÁ 144 57


Hình 6. Cây kết quả (ID3) quyết định có độ tin cậy cao
hơn và hoạt động hiệu quả hơn;
tiếp tục phát triển hoàn thiện
thuật toán theo hướng trở thành
phần mềm khai phá dữ liệu
trong tín dụng tiêu dùng, nhằm
hỗ trợ cho ngân hàng đưa ra
quyết định tín dụng cho khách
hàng. Đồng thời, cần tìm hiểu
nhu cầu thực tế để từ đó cải tiến
chương trình, cài đặt bài toán
theo các thuật toán đã nghiên
cứu để làm việc tốt hơn với các
CSDL lớn mang tính thực tế. ■

Tài liệu tham khảo


1. Nguyễn Hà Nam, Giáo trình
“Một con”: Bank_data.csv gồm 600 đối Khai phá dữ liệu, ĐHQG Hà Nội,
+ Với nhánh “Hai con” gồm tượng, 10 thuộc tính, sau khi năm 2013
ba mẫu {4, 8, 11} và đều có tiền xử lí với phần mềm Weka 2. Hà Quang Thụy, Bài gảng Nhập
giá trị quyết định là “KHÔNG” và lưu dưới dạng file excel với môn khai phá dữ liệu, ĐHQG Hà
nên ta tạo nút lá là “KHÔNG”. tên: Dulieunganhang.xls. Tập Nội, năm 2010
+ Với nhánh “Một con” gồm dữ liệu này, ngoài các thuộc 3. http://www.sbv.gov.vn/
một mẫu {10} và có giá trị tính trên, còn có hai thuộc tính 4. Hồ Tú Bảo (2001), Introduction
quyết định là “CÓ ” nên tạo nút quyết định “result”, quyết định to knowledge discovery and data
lá là “CÓ ”. một khách hàng là được vay mining, Intistute of Information
Cuối cùng thu được cây như hay không được vay. Technology Nation Center for
Hình 6. Bài báo đã trình bày một ứng NaturalScience and Technology.
Sau khi cây quyết định được dụng cụ thể của kỹ thuật khai 5. Ian H. Witten, Mark Hall and
hoàn thành, toàn bộ khách phá dữ liệu mà các ngân hàng Eibe Frank (2005), “Data Mining,
hàng có thể được phân lớp. Ví có thể áp dụng để phân loại Practical Machine Learning Tools
dụ, trong trường hợp thuộc tính khách hàng của mình, căn cứ and Techniques”, Second edition,
Thu nhập= “Cao” và Tuổi= vào kết quả đó ngân hàng sẽ có Morgan Kaufmann Publisher.
“Trẻ”, khách hàng này được thêm thông tin về khách hàng 6. Max Bramer (2007), Principles
xếp vào lớp khách hàng thuộc để quyết định có cho họ vay of Data Mining, University
diện “có” được vay tiêu dùng. vốn hay không. Tuy nhiên, để of Portsmouth, UK, Springer
Với kỹ thuật phân loại này, các có kết quả mang tính ứng dụng Publishers, 2002.
ngân hàng có thể áp dụng nó thực tế, kỹ thuật này cần phải 7. http://en.wikipedia.org/wiki/
vào quá trình ra quyết định cho có sự kết hợp với các thuật ID3_algorithm, truy nhập ngày
khách hàng vay vốn tiêu dùng, toán như: ADTCCC (dựa vào 08/02/2014.
vì đây là một phương pháp đảm CORE và đại lượng đóng góp
bảo tính khách quan trong việc phân lớp của thuộc tính), thuật
phân loại khách hàng. toán ADTNDA (dựa vào độ
4. Kết luận phụ thuộc mới của thuộc tính).
Trong quá trình thử nghiệm, Cần bổ sung thêm dữ liệu cho
tác giả sử dụng tập dữ liệu tập dữ liệu mẫu để mô hình cây

58 SOÁ 144 - THAÙNG 5.2014

You might also like