You are on page 1of 57

Trường Đại học Công nghệ Thông tin

Khoa Hệ thống Thông tin

CHƯƠNG 3

TẬP PHỔ BIẾN


VÀ LUẬT KẾT HỢP

Cao Thị Nhạn


NỘI DUNG
1. Tổng quan về luật kết hợp
2. Biểu diễn luật kết hợp
3. Khám phá các mẫu thường xuyên
4. Khám phá các kết hợp với giải thuật
Apriori và các biến thể của giải thuật
Apriori
5. Khám phá các kết hợp dựa trên tập phổ
biến tối đại
6. Cách tính độ tin cậy của luật
Đặt vấn đề
Là phương pháp khai thác dữ liệu phổ biến trong phân tích
dữ liệu kinh doanh nhằm tìm ra mối quan hệ giữa các thuộc
tính trong CSDL.
Phân tích dữ liệu bán hàng: 75% khách hàng mua mặt hàng
A sẽ mua mặt hàng B
Ứng dụng:
Biết được xu hướng mua hàng  chiến lược kinh doanh: sắp xếp
hàng trên kệ trưng bày, chiến lược khuyến mãi…
Kinh doanh online: hiển thị hàng, tiếp thị chéo (cross-marketing)
Tổng quan về luật kết hợp
(Association Rules)
Xét ví dụ: Khăn  Bia [0.5%, 60%]
Nếu mua khăn thì mua bia trong 60% trường hợp
Khăn và bia mua cùng một lúc là 0.5% dòng dữ liệu
Khăn: vế trái
Bia: mệnh đề kết quả
0.5%: độ hỗ trợ (support ration): trong bao nhiêu % dữ liệu thì vế
trái và vế phải cùng xảy ra
60%: độ tin cậy (confidence): nếu vế trái xảy ra thì có bao nhiêu %
khả năng vế phải xảy ra
Tổng quan về luật kết hợp
(Association Rules)
Ngữ cảnh khai thác dữ liệu
O: tập hữu hạn khác rỗng các hoá đơn
I: tập hữu hạn khác rỗng các mặt hàng
R: quan hệ hai ngôi giữa O và I sao cho:
với oO và iI, (o,i)R
 Hoá đơn o có chứa mặt hàng I
Ngữ cảnh khai thác dữ liệu là bộ ba (O, I, R)
Tổng quan về luật kết hợp
(Association Rules)
Ngữ cảnh khai thác dữ liệu
O = {o1, o2, o3, o4, o5} -- hoá đơn
I = {i1, i2, i3, i4} -- mặt hàng
R: quan hệ hai ngôi giữa O và I:
Hoá đơn o1 có chứa mặt hàng i2  (o1,i2)R
Hoá đơn o3 không chứa mặt hàng i1  (o3,i1)R
Tổng quan về luật kết hợp
(Association Rules)
Ví dụ ngữ cảnh khai thác dữ liệu
Tổng quan về luật kết hợp
(Association Rules)
Thành lập ma trận nhị phân (1: có, 0: không)
Tổng quan về luật kết hợp
(Association Rules)
Kết nối Galois
Cho (O, I, R), xét 2 hàm : P(I)P(O) và : P(O)P(I)
P(I): tập chứa các tập con của I
: P(I)P(O)
Cho SI, (S)={oO | iS: (o,i)R}
S={i1, i2} thì (S)={o1, o4}
Tìm các hoá đơn có chứa cả hai mặt hàng i1 và i2
Phân loại khách hàng theo sở thích
Tổng quan về luật kết hợp
(Association Rules)
Kết nối Galois
Cho (O, I, R), xét 2 hàm : P(I)P(O) và : P(O)P(I)
P(I): tập chứa các tập con của I
: P(O)P(I)
Cho XO, (X)={iI | oX: (o,i)R}
X={o1, o2, o3} thì (X)={i2, i3}
Tìm các mặt hàng được bán trong cả 3 hoá đơn o1,
o2, o3
Tìm sở thích chung của nhóm khách hàng
Tổng quan về luật kết hợp
(Association Rules)
Độ hỗ trợ (Support) của S là tỉ số giữa số các hóa
đơn có chứa S và số lượng hóa đơn trong O
Ký hiệu: Support(S)=(S) / O
(S): tập tất cả các hóa đơn có chứa tất cả các mặt
hàng trong S
(S): số phần tử của (S)
Tổng quan về luật kết hợp
(Association Rules)

Cho S1={i2, i3}, tính Support(S1)


Support(S1) = (S1) / O
=|{o1, o2, o3, o4}| / |{o1, o2, o3, o4, o5}| = 4/5 = 0.8
Tính Support({i1,i2,i3}), Support({i3,i4}), Support({i1,i2,i3,i4})
Tổng quan về luật kết hợp
(Association Rules)
Độ hỗ trợ Support [0,1]
Lớn: phổ biến
Nhỏ: không phổ biến
Ngưỡng: một giá trị cho trước gọi là độ hỗ
trợ tối thiểu (minsupp)
SI được gọi là tập phổ biến theo ngưỡng
minsupp nếu Support(S)minsupp
FS(O, I, R, minsupp) là tập gồm các tập phổ
biến theo ngưỡng minsupp
Tổng quan về luật kết hợp
(Association Rules)
Tập phổ biến FS(O, I, R, minsupp). Xét ví dụ
S1={i2, i3}, S2={i3, i4}, S3={i1, i2, i3} có độ hỗ
trợ lần lượt là 0.8, 0.6, và 0.4
Minsupp=0.7:
S1 là tập phổ biến, S1FS(O,I,R,0.7)
S2, S3 không là tập phổ biến, S2FS(O,I,R,0.7),
S3FS(O,I,R,0.7)
Tổng quan về luật kết hợp
(Association Rules)
Tập phổ biến tối đại (maximal frequent
itemset): M cần thỏa 2 điều sau:
i. MFS(O, I, R, minsupp)
ii.  SFS(O, I, R, minsupp) sao cho M≠S và MS

Ví dụ: Tìm tập phổ biến tối đại từ các tập phổ
biến sau FS={{i1, i2, i3}, {i1, i2}, {i4}}
Thì {i1, i2, i3}, {i4} là các tập phổ biến tối đại
Tổng quan về luật kết hợp
(Association Rules)
Luật kết hợp
Cho ngữ cảnh KTDL (O, I, R) và minsupp
Với tập phổ biến SFS(O, I, R, minsupp)
Gọi X, Y S (X, Y khác ) sao cho
S=XY và XY=
Luật kết hợp X với Y dạng XY phản ánh khả
năng xuất hiện Y khi cho trước X  tạo luật kết
hợp từ tập phổ biến
Tổng quan về luật kết hợp
(Association Rules)
Luật kết hợp
Cho ngữ cảnh KTDL (O, I, R) và minsupp=0.4
Với S={i1, i2, i3} và support(S)=0.4  S là tập
phổ biến
Gọi X={i2}, Y={i1, i3} thỏa S=XY và XY=
Luật kết hợp XY phản ánh “nếu khách hàng
mua i2 thì sẽ mua i1 và i3”
Tổng quan về luật kết hợp
(Association Rules)
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của luật XY, ký hiệu Support (XY)
là độ hỗ trợ của tập S (S=XY)
Support (XY) = support (S)
Luật r1: XY, với X={i2}, Y={i1, i3}
Support (XY) = support (S) = 0.4
Tính r2: XY, với X={i3}, Y={i2, i4}
Tính r3: XY, với X={i2}, Y={i3}
Nhận xét gì về độ hỗ trợ của luật kết hợp
Tổng quan về luật kết hợp
(Association Rules)
Độ tin cậy của luật kết hợp
Độ tin cậy của luật XY, ký hiệu CF (XY)
CF (XY) = support (S) / support (X)
= (|(S)| / |O|) / (|(X)| / |O|)
= |(S)| / |(X)|
= số dòng chứa S / số dòng chứa X
Luật r1: XY, với X={i2}, Y={i1, i3}
CF (XY) = support (S)/support (X) = 0.4/0.8 = 0.5
Tính CF(r2): XY, với X={i3}, Y={i2, i4}
Tính CF(r3): XY, với X={i2}, Y={i3}
Tổng quan về luật kết hợp
(Association Rules)
Tóm tắt một số khái niệm được sử dụng trong
luật kết hợp:
1. Phần tử (Item), tập phần tử (Item set)
2. Giao dịch (Transaction): khách mua hàng
3. Luật kết hợp (Association rule)
4. Độ hỗ trợ (Support), ngưỡng hỗ trợ tối thiểu (Minimum
support threshold)
5. Độ tin cậy (Confidence)
6. Tập phần tử phổ biến (Frequent itemset)
7. Luật kết hợp mạnh (Strong association rule)
8. Khai thác luật kết hợp: tìm tập phổ biến  tạo luật
Tổng quan về luật kết hợp
(Association Rules)
Các bước để tìm luật kết hợp
1. Tìm các tập phổ biến
2. Dùng các tập phổ biến để tạo luật
Biểu diễn luật kết hợp
Luật kết hợp: XY [support, confidence]
Cho trước độ hỗ trợ tối thiểu (min_sup), độ tin
cậy tối thiểu (min_conf)
X và Y là các tập phần tử
Support(XY) = Support(X U Y) >= min_sup
Confidence(XY) = Support(X U Y)/Support(X)
>= min_conf

Ý nghĩa như đã mô tả ở ví dụ ban đầu


Khám phá các mẫu thường xuyên
(tập phổ biến)
Giải thuật Apriori: dùng tập dự tuyển
R. Agrawal, R. Srikant, Fast algorithms for mining
association rules, Proceedings of the 20th VLDB
Conference, Chile, 1994.
Lặp việc tìm tập phổ biến với kích thước từ 1 đến k
Tập con của tập phổ biến cũng là tập phổ biến (nhằm giảm
không gian tìm kiếm) (?)
Giải thuật FP-Growth: dùng cây FP
J. Han, J. Pei, Y. Yin, Mining frequent patterns without
candidate generation, Proceedings of the 2000 ACM
SIGMOD international conference on Management of data,
pp. 1-12, 2000.
Xây dựng FP-Tree, sau đó tìm các tập phổ biến dựa vào
cây này.
Khám phá các mẫu thường xuyên
(tập phổ biến)
Giải thuật Apriori:
Khám phá các mẫu thường xuyên
(tập phổ biến)
Giải thuật Apriori:
Khám phá các mẫu thường xuyên
(tập phổ biến)
Cho NCKPDL(O, I, R) và minsupp=0.4.
Tìm các tập phổ biến theo minsupp
Khám phá các mẫu thường xuyên
(tập phổ biến)
1. Tìm các tập phổ biến có 1 phần tử

Ứng viên có 1 phần tử: C1={{i1},{i2},{i3},{i4},{i5}}

Tính độ hỗ trợ của ứng viên với minsupp=0.4


Support ({i1}) = 2/5 = 0.4
Support ({i2}) = 3/5 = 0.6
Support ({i3}) = 5/5 = 1.0
Support ({i4}) = 3/5 =0.6
Support ({i5}) = 1/5 =0.2

Tập phổ biến có 1 phần tử: L1={{i1},{i2},{i3},{i4}}


Khám phá các mẫu thường xuyên
(tập phổ biến)
2. Tìm các tập phổ biến có 2 phần tử
Xây dựng ứng viên có 2 phần tử từ L1:
C2={{i1,i2},{i1,i3},{i1,i4},{i2,i3},{i2,i4}, {i3,i4}}
Tính độ hỗ trợ của ứng viên với minsupp=0.4
Support ({i1, i2})=0.4
Support ({i1, i3})=0.4
Support ({i1, i4})=0.2
Support ({i2, i3})=0.6
Support ({i2, i4})=0.2
Support ({i3, i4})=0.6
Tập phổ biến có 2 phần tử:
L2={{i1,i2},{i1,i3}, {i2,i3}, {i3,i4}}
Khám phá các mẫu thường xuyên
(tập phổ biến)
3. Tìm các tập phổ biến có 3 phần tử
Xây dựng ứng viên có 3 phần tử từ L2:
C2={{i1,i2,i3},{i1,i3,i4}, {i2,i3,i4}}
Tính độ hỗ trợ của ứng viên với minsupp=0.4
Support ({i1,i2,i3})=0.4
Support ({i1,i3,i4})=0.0
Support ({i2,i3,i4})=0.2
Tập phổ biến có 3 phần tử: L3={{i1,i2,i3}}
Tập phổ biến L=L1L2L3
= {i1},{i2},{i3},{i4}, {i1,i2},{i1,i3}, {i2,i3}, {i3,i4},
{i1,i2,i3}
Một số biến thể của thuật toán Apriori

Kỹ thuật dựa trên bảng băm (hash-based technique)

Giảm giao dịch (transaction reduction)

Phân hoạch (partitioning)

Lấy mẫu (sampling)

Đếm itemset động (dynamic itemset counting)


Khám phá các mẫu thường xuyên
(tập phổ biến)
Giải thuật FP-Growth:
1. Xây dựng FP_Tree
a. Tìm tập phổ biến (thỏa minsupp) và sắp xếp theo thứ tự giảm dần.
b. Xây dựng bằng cách duyệt qua CSDL, mỗi giao dịch là 1 nhánh
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern base)
cho mỗi nút trên cây
3. Xây dựng cây FP điều kiện (conditional FP tree) từ các cơ
sở mẫu điều kiện của mỗi nút.
4. Tìm tập phổ biến
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
TID
TID Items
Items Ordered frequent items
100
100 f,f,a,a,c,c,d,d,g,g,i,i,m,p
m,p f, c, a, m, p
200
200 a,a,b,b,c,c,f,f,l,l,m,
m,oo f, c, a, b,m
300
300 b,b,f,f,h,h,j,j,oo f, b
400
400 b,b,c,c,k,k,s,s,pp c, b, p
500
500 a,a,f,f,c,c,e,e,l,l,p,p,m,
m,nn f, c, a, m, p

Item a b c d e f g h i j k l m o p s
Supp 3 3 4 1 1 4 1 1 1 1 1 2 3 2 3 1

Item f c a b m p
Supp>=3 4 4 3 3 3 3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60% Root
TID Items Ordered
frequent items
f:1
100 f, a, c, d, g, i, m,p f, c, a, m, p
200 a, b, c, f, l, m, o f, c, a, b,m c:1
300 b, f, h, j, o f, b
400 b, c, k, s, p c, b, p a:1
500 a, f, c, e, l, p, m, n f, c, a, m, p
m:1

p:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
TID Items Ordered Root
frequent items
100 f, a, c, d, g, i, m,p f, c, a, m, p
f:2
200 a, b, c, f, l, m, o f, c, a, b,m
300 b, f, h, j, o f, b c:2

400 b, c, k, s, p c, b, p
a:2
500 a, f, c, e, l, p, m, n f, c, a, m, p

m:1 b:1

p:1 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
TID Items Ordered Root
frequent items
100 f, a, c, d, g, i, m,p f, c, a, m, p f:4 c:1
200 a, b, c, f, l, m, o f, c, a, b,m
300 b, f, h, j, o f, b c:3 b:1 b:1

400 b, c, k, s, p c, b, p
a:3 p:1
500 a, f, c, e, l, p, m, n f, c, a, m, p

m:2 b:1

p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
Header table
Root
Item Freq.
head
F 4 f:4 c:1

C 4 c:3 b:1
b:1
A 3
a:3 p:1
B 3
m:2 b:1
M 3

P 3 p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern
base)
o Bắt đầu mẫu phổ biến ở cuối bảng (nút lá)
o Duyệt cây, tất cả các đường dẫn để tạo cơ sở mẫu điều
kiện
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern
base)
o Bắt đầu mẫu phổ biến ở cuối bảng: p
o Cơ sở mẫu điều kiện: fcam:2, cb:1 Root

f:4 c:1

c:3 b:1 b:1

a:3 p:1

m:2 b:1

p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern
base)
Root

Item Cond. Pattern base


f:4 c:1
c f: 3
a fc: 3 c:3 b:1 b:1
b fca:1, f: 1, c:1
m fca: 2, fcab: 1 a:3 p:1

p fcam: 2, cb: 1
m:2 b:1

p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện
o Với mỗi cơ sở mẫu
o Xác định tập phổ biến của mẫu cơ sở (số lượng mẫu
thỏa minsupp)
o Xây dựng cây FP điều kiện cho mẫu
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện
o Với cơ sở mẫu điều kiện cho p: {facm: 2, cb: 1}
o Đếm số lượng mỗi mẫu trong cơ sở mẫu: f:2, a:2, c:3,
m:2, b:1  c:3 (thỏa minsupp=3) phổ biến trên
cơ sở mẫu điều kiện của p
o Cây FP điều kiện cho p
Root

c:3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện
o Với cơ sở mẫu điều kiện cho m: {fac: 2, fcab: 1}
o Đếm số lượng mỗi mẫu trong cơ sở mẫu: f:3, c:3, a:3,
b:1  f:3, c:3, a:3 (thỏa minsupp=3) phổ biến
trên cơ sở mẫu điều kiện của m
o Cây FP điều kiện cho m Root

f:3

c:3

a:3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện

Item Conditional pattern base Conditional FP-Tree


p {(fcam:2), (cb:1)} {(c:3)}|p
m {(fca:2), (fcab:1)} {(f:3, c:3, a:3)}|m
b {(fca:1), (f:1), (c:1)} {}
a {(fc:3)} {(f:3, c:3)}|a
c {(f:3)} {(f:3)}|c
f {} {}
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
4. Xây dựng tập phổ biến
o Có 2 trường hợp: các cây FP chỉ có 1 đường dẫn đơn,
các cây FP có nhiều nhánh.
o Với cây FP chỉ có 1 đường dẫn đơn p: mẫu phổ biến
chính là tất cả các tổ hợp của các đường dẫn con thuộc
p
o Với cây FP có nhiều nhánh: tách thành cây có đường
dẫn đơn
o  đệ quy: FP_Growth(FP-tree, )
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
4. Xây dựng tập phổ biến
o Khởi tạo: FP_Growth(FP-tree, null)
o Nếu cây FP chỉ có 1 đường dẫn đơn p: với mỗi tổ hợp 
của các đỉnh trên p, tạo mẫu  với supp=supp_min
(các đỉnh trong )
o Ngược lại, với mỗi i trên bảng header của cây
 Tạo mẫu i với supp=supp(i)
 Xây dựng cơ sở mẫu điều kiện của  và cây FP điều kiện cho 
(tree)
 Nếu tree≠, gọi FP_growth(tree, )
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
4. Xây dựng tập phổ biến
Root
o Với nút p, cây FP_điều kiện {(c:3)}|p
o Nút p có các mẫu tuần tự phổ biến là p:3, pc:3
c:3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
4. Xây dựng tập phổ biến
o Với nút m, cây FP_điều kiện {(f:3, c:3, a:3)}|m
o Các mẫu tuần tự phổ biến là m:3, fm:3, cm:3, am:3,
fcm:3, fam:3, cam:3, fcam:3
Root

f:3

c:3

a:3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth

Kết quả các mẫu thường xuyên


Item Conditional FP-Tree Frequent Patterns
p {(c:3)}|p c, cp
m {(f:3, c:3, a:3)}|m m, fm, cm, am, fcm, fam, cam,
fcam
b {} B
a {(f:3, c:3)}|a a, fa, ca, fca
c {(f:3)}|c c, fc
f {} f
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth

Nhận xét:
Khám phá các kết hợp dựa trên
tập phổ biến tối đại
Nhắc lại: Tập phổ biến tối đại M cần thỏa 2 điều
sau:
i. MFS(O, I, R, minsupp)
ii.  SFS(O, I, R, minsupp) sao cho M≠S và MS

Tập phổ biến L= {i1}, {i2}, {i3}, {i4}, {i1,i2},


{i1,i3}, {i2,i3}, {i3,i4}, {i1,i2,i3} có 2 tập phổ biến
tối đại là {i3,i4} và {i1,i2,i3}
Cách tính độ tin cậy của luật
Từ tập phổ biến tối đại, rút ra các luật với Độ hỗ trợ
(support) và Độ tin cậy (confidence) của luật
Nhắc lại:
Độ hỗ trợ của luật XY, ký hiệu Support (XY) là độ hỗ trợ của tập
S (S=XY):
Support (XY) = support (S)
Độ tin cậy của luật XY, ký hiệu CF (XY)
CF (XY) = support (S) / support (X)
Từ ví dụ trên với tập phổ biến tối đại {i1,i2,i3}, rút ra 2 luật:
R1: {i1}  {i2, i3}, và R2: {i3}  {i1, i2}
Độ hỗ trợ: Support(r1)=Support(r2)=Support({i1,i2,i3})=0.4
Độ tin cậy: CF(r1)=Support({i1,i2,i3})/Support({i1}) = 0.4/0.4=1.0
CF(r2)=Support({i1,i2,i3})/Support({i3}) = 0.4/1.0=0.4
Bài tập 1
Nguồn: Bài giảng KTDL, Thầy Trịnh Minh Tuấn
Cho NCKTDL (O, I, R) (slide kế tiếp)
Yêu cầu:
1. Tìm các tập phổ biến bằng thuật toán Apriori theo
ngưỡng minsupp = 0.6
2. Tìm các tập phổ biến tối đại theo ngưỡng minsupp = 0.6
3. Chọn một tập phổ biến tối đại, hãy rút ra các luật kết hợp,
tính:
 Độ hỗ trợ (support) của luật
 Độ tin cậy (conf) của luật
4. Cho biết các luật (rút ra từ 3) có độ tin cậy >=0.9
Bài tập 1

i1 i2 i3 i4 i5 i6
o1 1 0 1 1 1 1
o2 1 0 1 1 0 0
o3 1 1 0 1 1 1
o4 0 1 0 1 0 1
o5 0 1 1 1 1 1
o6 0 1 1 1 1 1
53
Bài tập 3
Cho CSDL giao dịch như sau:
TID Items
T100 A, B, C, D
T200 A, C, D, E
T300 A, B, F, G
T400 B, C, E, F, G
T500 A, C, E, F
T600 C, D, E, F

Yêu cầu: Với minsupp = 0.4 và minconf = 0.75


1. Tìm các tập phổ biến bằng thuật toán Apriori
2. Rút ra các luật thỏa minconf
Bài tập 2
Cho CSDL giao dịch như sau:
TID Item
T100 A, B, C, D, F, H
T200 C, D, E, K
T300 A, B, F, G
T400 B, C, E, F, G
T500 A, C, E
T600 C, D, E, F

Yêu cầu: Với minsupp = 0.3 và minconf = 0.7


1. Tìm các tập phổ biến tối đại bằng thuật toán
FP_Growth
2. Tìm các luật có độ tin cậy lớn hơn hoặc bằng minconf
Bài tập về nhà

Làm các bài tập về nhà


Tài liệu tham khảo
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2012.
2. Đỗ Phúc, Slide Bài giảng Khai thác dữ liệu, ĐHQG TPHCM.
3. Khoa Khoa học và Kỹ thuật máy tính, Bài giảng Khai phá dữ
liệu, Trường Đại học Bách khoa Tp. Hồ Chí Minh, 2019.
4. Hồ Tú Bảo, Introduction to knowledge discovery and data mining,
IOIT, 2001.
5. Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining
Concepts and Techniques, 3 edition, Morgan Kaufmann Publishers,
2011.
6. X. Wu, V. Kumar, J. Ross Quinlan, Top 10 Algorithms in Data
Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009.
7. Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag,
2006.

You might also like