3. Tập phổ biến và luật kết hợp

Trường Đại học Công nghệ Thông tin
Khoa Hệ thống Thông tin
CHƯƠNG 3
TẬP PHỔ BIẾN

VÀ LUẬT KẾT HỢP
Cao Thị Nhạn

NỘI DUNG
1. Tổng quan về luật kết hợp
2. Biểu diễn luật kết hợp
3. Khám phá các mẫu thường xuyên
4. Khám phá các kết hợp với giải thuật
Apriori và các biến thể của giải thuật
Apriori
5. Khám phá các kết hợp dựa trên tập phổ
biến tối đại
6. Cách tính độ tin cậy của luật
Đặt vấn đề
Là phương pháp khai thác dữ liệu phổ biến trong phân tích
dữ liệu kinh doanh nhằm tìm ra mối quan hệ giữa các thuộc
tính trong CSDL.
Phân tích dữ liệu bán hàng: 75% khách hàng mua mặt hàng
A sẽ mua mặt hàng B
Ứng dụng:
Biết được xu hướng mua hàng  chiến lược kinh doanh: sắp xếp
hàng trên kệ trưng bày, chiến lược khuyến mãi…
Kinh doanh online: hiển thị hàng, tiếp thị chéo (cross-marketing)
Tổng quan về luật kết hợp
(Association Rules)
Xét ví dụ: Khăn  Bia [0.5%, 60%]
Nếu mua khăn thì mua bia trong 60% trường hợp
Khăn và bia mua cùng một lúc là 0.5% dòng dữ liệu
Khăn: vế trái
Bia: mệnh đề kết quả
0.5%: độ hỗ trợ (support ration): trong bao nhiêu % dữ liệu thì vế
trái và vế phải cùng xảy ra
60%: độ tin cậy (confidence): nếu vế trái xảy ra thì có bao nhiêu %
khả năng vế phải xảy ra
(Association Rules)
Ngữ cảnh khai thác dữ liệu
O: tập hữu hạn khác rỗng các hoá đơn
I: tập hữu hạn khác rỗng các mặt hàng
R: quan hệ hai ngôi giữa O và I sao cho:
với oO và iI, (o,i)R
 Hoá đơn o có chứa mặt hàng I
Ngữ cảnh khai thác dữ liệu là bộ ba (O, I, R)
(Association Rules)
Ngữ cảnh khai thác dữ liệu
O = {o1, o2, o3, o4, o5} -- hoá đơn
I = {i1, i2, i3, i4} -- mặt hàng
R: quan hệ hai ngôi giữa O và I:
Hoá đơn o1 có chứa mặt hàng i2  (o1,i2)R
Hoá đơn o3 không chứa mặt hàng i1  (o3,i1)R
(Association Rules)
Ví dụ ngữ cảnh khai thác dữ liệu
(Association Rules)
Thành lập ma trận nhị phân (1: có, 0: không)
(Association Rules)
Kết nối Galois
Cho (O, I, R), xét 2 hàm : P(I)P(O) và : P(O)P(I)
P(I): tập chứa các tập con của I
: P(I)P(O)
Cho SI, (S)={oO | iS: (o,i)R}
S={i1, i2} thì (S)={o1, o4}
Tìm các hoá đơn có chứa cả hai mặt hàng i1 và i2
Phân loại khách hàng theo sở thích
(Association Rules)
Kết nối Galois
Cho (O, I, R), xét 2 hàm : P(I)P(O) và : P(O)P(I)
P(I): tập chứa các tập con của I
: P(O)P(I)
Cho XO, (X)={iI | oX: (o,i)R}
X={o1, o2, o3} thì (X)={i2, i3}
Tìm các mặt hàng được bán trong cả 3 hoá đơn o1,
o2, o3
Tìm sở thích chung của nhóm khách hàng
(Association Rules)
Độ hỗ trợ (Support) của S là tỉ số giữa số các hóa
đơn có chứa S và số lượng hóa đơn trong O
Ký hiệu: Support(S)=(S) / O
(S): tập tất cả các hóa đơn có chứa tất cả các mặt
hàng trong S
(S): số phần tử của (S)
(Association Rules)
Cho S1={i2, i3}, tính Support(S1)

Support(S1) = (S1) / O
=|{o1, o2, o3, o4}| / |{o1, o2, o3, o4, o5}| = 4/5 = 0.8
Tính Support({i1,i2,i3}), Support({i3,i4}), Support({i1,i2,i3,i4})
(Association Rules)
Độ hỗ trợ Support [0,1]
Lớn: phổ biến
Nhỏ: không phổ biến
Ngưỡng: một giá trị cho trước gọi là độ hỗ
trợ tối thiểu (minsupp)
SI được gọi là tập phổ biến theo ngưỡng
minsupp nếu Support(S)minsupp
FS(O, I, R, minsupp) là tập gồm các tập phổ
biến theo ngưỡng minsupp
(Association Rules)
Tập phổ biến FS(O, I, R, minsupp). Xét ví dụ
S1={i2, i3}, S2={i3, i4}, S3={i1, i2, i3} có độ hỗ
trợ lần lượt là 0.8, 0.6, và 0.4
Minsupp=0.7:
S1 là tập phổ biến, S1FS(O,I,R,0.7)
S2, S3 không là tập phổ biến, S2FS(O,I,R,0.7),
S3FS(O,I,R,0.7)
(Association Rules)
Tập phổ biến tối đại (maximal frequent
itemset): M cần thỏa 2 điều sau:
i. MFS(O, I, R, minsupp)
ii.  SFS(O, I, R, minsupp) sao cho M≠S và MS
Ví dụ: Tìm tập phổ biến tối đại từ các tập phổ
biến sau FS={{i1, i2, i3}, {i1, i2}, {i4}}
Thì {i1, i2, i3}, {i4} là các tập phổ biến tối đại
(Association Rules)
Luật kết hợp
Cho ngữ cảnh KTDL (O, I, R) và minsupp
Với tập phổ biến SFS(O, I, R, minsupp)
Gọi X, Y S (X, Y khác ) sao cho
S=XY và XY=
Luật kết hợp X với Y dạng XY phản ánh khả
năng xuất hiện Y khi cho trước X  tạo luật kết
hợp từ tập phổ biến
(Association Rules)
Luật kết hợp
Cho ngữ cảnh KTDL (O, I, R) và minsupp=0.4
Với S={i1, i2, i3} và support(S)=0.4  S là tập
phổ biến
Gọi X={i2}, Y={i1, i3} thỏa S=XY và XY=
Luật kết hợp XY phản ánh “nếu khách hàng
mua i2 thì sẽ mua i1 và i3”
(Association Rules)
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của luật XY, ký hiệu Support (XY)
là độ hỗ trợ của tập S (S=XY)
Support (XY) = support (S)
Luật r1: XY, với X={i2}, Y={i1, i3}
Support (XY) = support (S) = 0.4
Tính r2: XY, với X={i3}, Y={i2, i4}
Tính r3: XY, với X={i2}, Y={i3}
Nhận xét gì về độ hỗ trợ của luật kết hợp
(Association Rules)
Độ tin cậy của luật kết hợp
Độ tin cậy của luật XY, ký hiệu CF (XY)
CF (XY) = support (S) / support (X)
= (|(S)| / |O|) / (|(X)| / |O|)
= |(S)| / |(X)|
= số dòng chứa S / số dòng chứa X
Luật r1: XY, với X={i2}, Y={i1, i3}
CF (XY) = support (S)/support (X) = 0.4/0.8 = 0.5
Tính CF(r2): XY, với X={i3}, Y={i2, i4}
Tính CF(r3): XY, với X={i2}, Y={i3}
(Association Rules)
Tóm tắt một số khái niệm được sử dụng trong
luật kết hợp:
1. Phần tử (Item), tập phần tử (Item set)
2. Giao dịch (Transaction): khách mua hàng
3. Luật kết hợp (Association rule)
4. Độ hỗ trợ (Support), ngưỡng hỗ trợ tối thiểu (Minimum
support threshold)
5. Độ tin cậy (Confidence)
6. Tập phần tử phổ biến (Frequent itemset)
7. Luật kết hợp mạnh (Strong association rule)
8. Khai thác luật kết hợp: tìm tập phổ biến  tạo luật
(Association Rules)
Các bước để tìm luật kết hợp
1. Tìm các tập phổ biến
2. Dùng các tập phổ biến để tạo luật
Biểu diễn luật kết hợp
Luật kết hợp: XY [support, confidence]
Cho trước độ hỗ trợ tối thiểu (min_sup), độ tin
cậy tối thiểu (min_conf)
X và Y là các tập phần tử
Support(XY) = Support(X U Y) >= min_sup
Confidence(XY) = Support(X U Y)/Support(X)
>= min_conf
Ý nghĩa như đã mô tả ở ví dụ ban đầu

Khám phá các mẫu thường xuyên
(tập phổ biến)
Giải thuật Apriori: dùng tập dự tuyển
R. Agrawal, R. Srikant, Fast algorithms for mining
association rules, Proceedings of the 20th VLDB
Conference, Chile, 1994.
Lặp việc tìm tập phổ biến với kích thước từ 1 đến k
Tập con của tập phổ biến cũng là tập phổ biến (nhằm giảm
không gian tìm kiếm) (?)
Giải thuật FP-Growth: dùng cây FP
J. Han, J. Pei, Y. Yin, Mining frequent patterns without
candidate generation, Proceedings of the 2000 ACM
SIGMOD international conference on Management of data,
pp. 1-12, 2000.
Xây dựng FP-Tree, sau đó tìm các tập phổ biến dựa vào
cây này.
Giải thuật Apriori:
Giải thuật Apriori:
Cho NCKPDL(O, I, R) và minsupp=0.4.
Tìm các tập phổ biến theo minsupp
1. Tìm các tập phổ biến có 1 phần tử
Ứng viên có 1 phần tử: C1={{i1},{i2},{i3},{i4},{i5}}
Tính độ hỗ trợ của ứng viên với minsupp=0.4

Support ({i1}) = 2/5 = 0.4
Support ({i2}) = 3/5 = 0.6
Support ({i3}) = 5/5 = 1.0
Support ({i4}) = 3/5 =0.6
Support ({i5}) = 1/5 =0.2
Tập phổ biến có 1 phần tử: L1={{i1},{i2},{i3},{i4}}

Xây dựng ứng viên có 2 phần tử từ L1:
C2={{i1,i2},{i1,i3},{i1,i4},{i2,i3},{i2,i4}, {i3,i4}}
Support ({i1, i2})=0.4
Tập phổ biến có 2 phần tử:
L2={{i1,i2},{i1,i3}, {i2,i3}, {i3,i4}}
Xây dựng ứng viên có 3 phần tử từ L2:
C2={{i1,i2,i3},{i1,i3,i4}, {i2,i3,i4}}
Support ({i1,i2,i3})=0.4
Tập phổ biến có 3 phần tử: L3={{i1,i2,i3}}
Tập phổ biến L=L1L2L3
= {i1},{i2},{i3},{i4}, {i1,i2},{i1,i3}, {i2,i3}, {i3,i4},
{i1,i2,i3}
Một số biến thể của thuật toán Apriori
Kỹ thuật dựa trên bảng băm (hash-based technique)
Giảm giao dịch (transaction reduction)
Phân hoạch (partitioning)
Lấy mẫu (sampling)
Đếm itemset động (dynamic itemset counting)

Giải thuật FP-Growth:
1. Xây dựng FP_Tree
a. Tìm tập phổ biến (thỏa minsupp) và sắp xếp theo thứ tự giảm dần.
b. Xây dựng bằng cách duyệt qua CSDL, mỗi giao dịch là 1 nhánh
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern base)
cho mỗi nút trên cây
3. Xây dựng cây FP điều kiện (conditional FP tree) từ các cơ
sở mẫu điều kiện của mỗi nút.
4. Tìm tập phổ biến
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
TID
TID Items
Items Ordered frequent items
100
100 f,f,a,a,c,c,d,d,g,g,i,i,m,p
m,p f, c, a, m, p
200
200 a,a,b,b,c,c,f,f,l,l,m,
m,oo f, c, a, b,m
300
300 b,b,f,f,h,h,j,j,oo f, b
400
400 b,b,c,c,k,k,s,s,pp c, b, p
500
500 a,a,f,f,c,c,e,e,l,l,p,p,m,
m,nn f, c, a, m, p
Item a b c d e f g h i j k l m o p s
Supp 3 3 4 1 1 4 1 1 1 1 1 2 3 2 3 1
Item f c a b m p
Supp>=3 4 4 3 3 3 3
1. Xây dựng cây FP, minsupp=60% Root
TID Items Ordered
frequent items
f:1
100 f, a, c, d, g, i, m,p f, c, a, m, p
200 a, b, c, f, l, m, o f, c, a, b,m c:1
300 b, f, h, j, o f, b
400 b, c, k, s, p c, b, p a:1
500 a, f, c, e, l, p, m, n f, c, a, m, p
m:1
p:1
TID Items Ordered Root
frequent items
100 f, a, c, d, g, i, m,p f, c, a, m, p
f:2
200 a, b, c, f, l, m, o f, c, a, b,m
300 b, f, h, j, o f, b c:2
400 b, c, k, s, p c, b, p
a:2
500 a, f, c, e, l, p, m, n f, c, a, m, p
m:1 b:1
p:1 m:1
TID Items Ordered Root
frequent items
100 f, a, c, d, g, i, m,p f, c, a, m, p f:4 c:1
200 a, b, c, f, l, m, o f, c, a, b,m
300 b, f, h, j, o f, b c:3 b:1 b:1
400 b, c, k, s, p c, b, p
a:3 p:1
500 a, f, c, e, l, p, m, n f, c, a, m, p
m:2 b:1
p:2 m:1
Header table
Root
Item Freq.
head
F 4 f:4 c:1
C 4 c:3 b:1
b:1
A 3
a:3 p:1
B 3
m:2 b:1
M 3
P 3 p:2 m:1
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern
base)
o Bắt đầu mẫu phổ biến ở cuối bảng (nút lá)
o Duyệt cây, tất cả các đường dẫn để tạo cơ sở mẫu điều
kiện
base)
o Bắt đầu mẫu phổ biến ở cuối bảng: p
o Cơ sở mẫu điều kiện: fcam:2, cb:1 Root
f:4 c:1
c:3 b:1 b:1
a:3 p:1
m:2 b:1
p:2 m:1
base)
Root
Item Cond. Pattern base

f:4 c:1
c f: 3
a fc: 3 c:3 b:1 b:1
b fca:1, f: 1, c:1
m fca: 2, fcab: 1 a:3 p:1
p fcam: 2, cb: 1
m:2 b:1
p:2 m:1
3. Xây dựng cây FP điều kiện
o Với mỗi cơ sở mẫu
o Xác định tập phổ biến của mẫu cơ sở (số lượng mẫu
thỏa minsupp)
o Xây dựng cây FP điều kiện cho mẫu
o Với cơ sở mẫu điều kiện cho p: {facm: 2, cb: 1}
o Đếm số lượng mỗi mẫu trong cơ sở mẫu: f:2, a:2, c:3,
m:2, b:1  c:3 (thỏa minsupp=3) phổ biến trên
cơ sở mẫu điều kiện của p
o Cây FP điều kiện cho p
Root
c:3
o Với cơ sở mẫu điều kiện cho m: {fac: 2, fcab: 1}
o Đếm số lượng mỗi mẫu trong cơ sở mẫu: f:3, c:3, a:3,
b:1  f:3, c:3, a:3 (thỏa minsupp=3) phổ biến
trên cơ sở mẫu điều kiện của m
o Cây FP điều kiện cho m Root
f:3
c:3
a:3
Item Conditional pattern base Conditional FP-Tree

p {(fcam:2), (cb:1)} {(c:3)}|p
m {(fca:2), (fcab:1)} {(f:3, c:3, a:3)}|m
b {(fca:1), (f:1), (c:1)} {}
a {(fc:3)} {(f:3, c:3)}|a
c {(f:3)} {(f:3)}|c
f {} {}
4. Xây dựng tập phổ biến
o Có 2 trường hợp: các cây FP chỉ có 1 đường dẫn đơn,
các cây FP có nhiều nhánh.
o Với cây FP chỉ có 1 đường dẫn đơn p: mẫu phổ biến
chính là tất cả các tổ hợp của các đường dẫn con thuộc
p
o Với cây FP có nhiều nhánh: tách thành cây có đường
dẫn đơn
o  đệ quy: FP_Growth(FP-tree, )
o Khởi tạo: FP_Growth(FP-tree, null)
o Nếu cây FP chỉ có 1 đường dẫn đơn p: với mỗi tổ hợp 
của các đỉnh trên p, tạo mẫu  với supp=supp_min
(các đỉnh trong )
o Ngược lại, với mỗi i trên bảng header của cây
 Tạo mẫu i với supp=supp(i)
 Xây dựng cơ sở mẫu điều kiện của  và cây FP điều kiện cho 
(tree)
 Nếu tree≠, gọi FP_growth(tree, )
Root
o Với nút p, cây FP_điều kiện {(c:3)}|p
o Nút p có các mẫu tuần tự phổ biến là p:3, pc:3
c:3
o Với nút m, cây FP_điều kiện {(f:3, c:3, a:3)}|m
o Các mẫu tuần tự phổ biến là m:3, fm:3, cm:3, am:3,
fcm:3, fam:3, cam:3, fcam:3
Root
f:3
c:3
a:3
Kết quả các mẫu thường xuyên

Item Conditional FP-Tree Frequent Patterns
p {(c:3)}|p c, cp
m {(f:3, c:3, a:3)}|m m, fm, cm, am, fcm, fam, cam,
fcam
b {} B
a {(f:3, c:3)}|a a, fa, ca, fca
c {(f:3)}|c c, fc
f {} f
Nhận xét:
Khám phá các kết hợp dựa trên
tập phổ biến tối đại
Nhắc lại: Tập phổ biến tối đại M cần thỏa 2 điều
sau:
i. MFS(O, I, R, minsupp)
ii.  SFS(O, I, R, minsupp) sao cho M≠S và MS
Tập phổ biến L= {i1}, {i2}, {i3}, {i4}, {i1,i2},

{i1,i3}, {i2,i3}, {i3,i4}, {i1,i2,i3} có 2 tập phổ biến
tối đại là {i3,i4} và {i1,i2,i3}
Cách tính độ tin cậy của luật
Từ tập phổ biến tối đại, rút ra các luật với Độ hỗ trợ
(support) và Độ tin cậy (confidence) của luật
Nhắc lại:
Độ hỗ trợ của luật XY, ký hiệu Support (XY) là độ hỗ trợ của tập
S (S=XY):
Support (XY) = support (S)
Độ tin cậy của luật XY, ký hiệu CF (XY)
CF (XY) = support (S) / support (X)
Từ ví dụ trên với tập phổ biến tối đại {i1,i2,i3}, rút ra 2 luật:
R1: {i1}  {i2, i3}, và R2: {i3}  {i1, i2}
Độ hỗ trợ: Support(r1)=Support(r2)=Support({i1,i2,i3})=0.4
Độ tin cậy: CF(r1)=Support({i1,i2,i3})/Support({i1}) = 0.4/0.4=1.0
CF(r2)=Support({i1,i2,i3})/Support({i3}) = 0.4/1.0=0.4
Bài tập 1
Nguồn: Bài giảng KTDL, Thầy Trịnh Minh Tuấn
Cho NCKTDL (O, I, R) (slide kế tiếp)
Yêu cầu:
1. Tìm các tập phổ biến bằng thuật toán Apriori theo
ngưỡng minsupp = 0.6
2. Tìm các tập phổ biến tối đại theo ngưỡng minsupp = 0.6
3. Chọn một tập phổ biến tối đại, hãy rút ra các luật kết hợp,
tính:
 Độ hỗ trợ (support) của luật
 Độ tin cậy (conf) của luật
4. Cho biết các luật (rút ra từ 3) có độ tin cậy >=0.9
Bài tập 1
i1 i2 i3 i4 i5 i6
o1 1 0 1 1 1 1
o2 1 0 1 1 0 0
o3 1 1 0 1 1 1
o4 0 1 0 1 0 1
o5 0 1 1 1 1 1
o6 0 1 1 1 1 1
53
Bài tập 3
Cho CSDL giao dịch như sau:
TID Items
T100 A, B, C, D
T200 A, C, D, E
T300 A, B, F, G
T400 B, C, E, F, G
T500 A, C, E, F
T600 C, D, E, F
Yêu cầu: Với minsupp = 0.4 và minconf = 0.75

1. Tìm các tập phổ biến bằng thuật toán Apriori
2. Rút ra các luật thỏa minconf
Bài tập 2
Cho CSDL giao dịch như sau:
TID Item
T100 A, B, C, D, F, H
T200 C, D, E, K
T300 A, B, F, G
T400 B, C, E, F, G
T500 A, C, E
T600 C, D, E, F
Yêu cầu: Với minsupp = 0.3 và minconf = 0.7

1. Tìm các tập phổ biến tối đại bằng thuật toán
FP_Growth
2. Tìm các luật có độ tin cậy lớn hơn hoặc bằng minconf
Bài tập về nhà
Làm các bài tập về nhà

Tài liệu tham khảo
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2012.
2. Đỗ Phúc, Slide Bài giảng Khai thác dữ liệu, ĐHQG TPHCM.
3. Khoa Khoa học và Kỹ thuật máy tính, Bài giảng Khai phá dữ
liệu, Trường Đại học Bách khoa Tp. Hồ Chí Minh, 2019.
4. Hồ Tú Bảo, Introduction to knowledge discovery and data mining,
IOIT, 2001.
5. Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining
Concepts and Techniques, 3 edition, Morgan Kaufmann Publishers,
2011.
6. X. Wu, V. Kumar, J. Ross Quinlan, Top 10 Algorithms in Data
Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009.
7. Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag,
2006.

3. Tập phổ biến và luật kết hợp

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

3. Tập phổ biến và luật kết hợp

Uploaded by

Copyright:

Available Formats

Trường Đại học Công nghệ Thông tin

Khoa Hệ thống Thông tin

TẬP PHỔ BIẾN

Cao Thị Nhạn

Cho S1={i2, i3}, tính Support(S1)

Ý nghĩa như đã mô tả ở ví dụ ban đầu

Ứng viên có 1 phần tử: C1={{i1},{i2},{i3},{i4},{i5}}

Tính độ hỗ trợ của ứng viên với minsupp=0.4

Tập phổ biến có 1 phần tử: L1={{i1},{i2},{i3},{i4}}

Kỹ thuật dựa trên bảng băm (hash-based technique)

Giảm giao dịch (transaction reduction)

Phân hoạch (partitioning)

Lấy mẫu (sampling)

Đếm itemset động (dynamic itemset counting)

c:3 b:1 b:1

Item Cond. Pattern base

Item Conditional pattern base Conditional FP-Tree

Kết quả các mẫu thường xuyên

Tập phổ biến L= {i1}, {i2}, {i3}, {i4}, {i1,i2},

Yêu cầu: Với minsupp = 0.4 và minconf = 0.75

Yêu cầu: Với minsupp = 0.3 và minconf = 0.7

Làm các bài tập về nhà

You might also like