Professional Documents
Culture Documents
3. Tập phổ biến và luật kết hợp
3. Tập phổ biến và luật kết hợp
CHƯƠNG 3
Ví dụ: Tìm tập phổ biến tối đại từ các tập phổ
biến sau FS={{i1, i2, i3}, {i1, i2}, {i4}}
Thì {i1, i2, i3}, {i4} là các tập phổ biến tối đại
Tổng quan về luật kết hợp
(Association Rules)
Luật kết hợp
Cho ngữ cảnh KTDL (O, I, R) và minsupp
Với tập phổ biến SFS(O, I, R, minsupp)
Gọi X, Y S (X, Y khác ) sao cho
S=XY và XY=
Luật kết hợp X với Y dạng XY phản ánh khả
năng xuất hiện Y khi cho trước X tạo luật kết
hợp từ tập phổ biến
Tổng quan về luật kết hợp
(Association Rules)
Luật kết hợp
Cho ngữ cảnh KTDL (O, I, R) và minsupp=0.4
Với S={i1, i2, i3} và support(S)=0.4 S là tập
phổ biến
Gọi X={i2}, Y={i1, i3} thỏa S=XY và XY=
Luật kết hợp XY phản ánh “nếu khách hàng
mua i2 thì sẽ mua i1 và i3”
Tổng quan về luật kết hợp
(Association Rules)
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của luật XY, ký hiệu Support (XY)
là độ hỗ trợ của tập S (S=XY)
Support (XY) = support (S)
Luật r1: XY, với X={i2}, Y={i1, i3}
Support (XY) = support (S) = 0.4
Tính r2: XY, với X={i3}, Y={i2, i4}
Tính r3: XY, với X={i2}, Y={i3}
Nhận xét gì về độ hỗ trợ của luật kết hợp
Tổng quan về luật kết hợp
(Association Rules)
Độ tin cậy của luật kết hợp
Độ tin cậy của luật XY, ký hiệu CF (XY)
CF (XY) = support (S) / support (X)
= (|(S)| / |O|) / (|(X)| / |O|)
= |(S)| / |(X)|
= số dòng chứa S / số dòng chứa X
Luật r1: XY, với X={i2}, Y={i1, i3}
CF (XY) = support (S)/support (X) = 0.4/0.8 = 0.5
Tính CF(r2): XY, với X={i3}, Y={i2, i4}
Tính CF(r3): XY, với X={i2}, Y={i3}
Tổng quan về luật kết hợp
(Association Rules)
Tóm tắt một số khái niệm được sử dụng trong
luật kết hợp:
1. Phần tử (Item), tập phần tử (Item set)
2. Giao dịch (Transaction): khách mua hàng
3. Luật kết hợp (Association rule)
4. Độ hỗ trợ (Support), ngưỡng hỗ trợ tối thiểu (Minimum
support threshold)
5. Độ tin cậy (Confidence)
6. Tập phần tử phổ biến (Frequent itemset)
7. Luật kết hợp mạnh (Strong association rule)
8. Khai thác luật kết hợp: tìm tập phổ biến tạo luật
Tổng quan về luật kết hợp
(Association Rules)
Các bước để tìm luật kết hợp
1. Tìm các tập phổ biến
2. Dùng các tập phổ biến để tạo luật
Biểu diễn luật kết hợp
Luật kết hợp: XY [support, confidence]
Cho trước độ hỗ trợ tối thiểu (min_sup), độ tin
cậy tối thiểu (min_conf)
X và Y là các tập phần tử
Support(XY) = Support(X U Y) >= min_sup
Confidence(XY) = Support(X U Y)/Support(X)
>= min_conf
Item a b c d e f g h i j k l m o p s
Supp 3 3 4 1 1 4 1 1 1 1 1 2 3 2 3 1
Item f c a b m p
Supp>=3 4 4 3 3 3 3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60% Root
TID Items Ordered
frequent items
f:1
100 f, a, c, d, g, i, m,p f, c, a, m, p
200 a, b, c, f, l, m, o f, c, a, b,m c:1
300 b, f, h, j, o f, b
400 b, c, k, s, p c, b, p a:1
500 a, f, c, e, l, p, m, n f, c, a, m, p
m:1
p:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
TID Items Ordered Root
frequent items
100 f, a, c, d, g, i, m,p f, c, a, m, p
f:2
200 a, b, c, f, l, m, o f, c, a, b,m
300 b, f, h, j, o f, b c:2
400 b, c, k, s, p c, b, p
a:2
500 a, f, c, e, l, p, m, n f, c, a, m, p
m:1 b:1
p:1 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
TID Items Ordered Root
frequent items
100 f, a, c, d, g, i, m,p f, c, a, m, p f:4 c:1
200 a, b, c, f, l, m, o f, c, a, b,m
300 b, f, h, j, o f, b c:3 b:1 b:1
400 b, c, k, s, p c, b, p
a:3 p:1
500 a, f, c, e, l, p, m, n f, c, a, m, p
m:2 b:1
p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
1. Xây dựng cây FP, minsupp=60%
Header table
Root
Item Freq.
head
F 4 f:4 c:1
C 4 c:3 b:1
b:1
A 3
a:3 p:1
B 3
m:2 b:1
M 3
P 3 p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern
base)
o Bắt đầu mẫu phổ biến ở cuối bảng (nút lá)
o Duyệt cây, tất cả các đường dẫn để tạo cơ sở mẫu điều
kiện
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern
base)
o Bắt đầu mẫu phổ biến ở cuối bảng: p
o Cơ sở mẫu điều kiện: fcam:2, cb:1 Root
f:4 c:1
a:3 p:1
m:2 b:1
p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
2. Xây dựng cơ sở mẫu điều kiện (conditional pattern
base)
Root
p fcam: 2, cb: 1
m:2 b:1
p:2 m:1
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện
o Với mỗi cơ sở mẫu
o Xác định tập phổ biến của mẫu cơ sở (số lượng mẫu
thỏa minsupp)
o Xây dựng cây FP điều kiện cho mẫu
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện
o Với cơ sở mẫu điều kiện cho p: {facm: 2, cb: 1}
o Đếm số lượng mỗi mẫu trong cơ sở mẫu: f:2, a:2, c:3,
m:2, b:1 c:3 (thỏa minsupp=3) phổ biến trên
cơ sở mẫu điều kiện của p
o Cây FP điều kiện cho p
Root
c:3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện
o Với cơ sở mẫu điều kiện cho m: {fac: 2, fcab: 1}
o Đếm số lượng mỗi mẫu trong cơ sở mẫu: f:3, c:3, a:3,
b:1 f:3, c:3, a:3 (thỏa minsupp=3) phổ biến
trên cơ sở mẫu điều kiện của m
o Cây FP điều kiện cho m Root
f:3
c:3
a:3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
3. Xây dựng cây FP điều kiện
f:3
c:3
a:3
Khám phá các mẫu thường xuyên
Giải thuật FP-Growth
Nhận xét:
Khám phá các kết hợp dựa trên
tập phổ biến tối đại
Nhắc lại: Tập phổ biến tối đại M cần thỏa 2 điều
sau:
i. MFS(O, I, R, minsupp)
ii. SFS(O, I, R, minsupp) sao cho M≠S và MS
i1 i2 i3 i4 i5 i6
o1 1 0 1 1 1 1
o2 1 0 1 1 0 0
o3 1 1 0 1 1 1
o4 0 1 0 1 0 1
o5 0 1 1 1 1 1
o6 0 1 1 1 1 1
53
Bài tập 3
Cho CSDL giao dịch như sau:
TID Items
T100 A, B, C, D
T200 A, C, D, E
T300 A, B, F, G
T400 B, C, E, F, G
T500 A, C, E, F
T600 C, D, E, F