Professional Documents
Culture Documents
KPDL C4 LKH
KPDL C4 LKH
1
Chương 4: Khai phá luật kết hợp
http://michael.hahsler.net/research/arules_RUG_2015/demo/
6/2/23 2
Bán chéo và bán tăng cường
Bán chéo
cross-selling
Bán chéo: bán các mặt hàng bổ sung cho khách hàng hiện tại.
Sản phẩm thường được mua cùng nhau
“Mẫu phổ biến”, “luật kết hợp”
Bán tăng
up-selling (deep-selling: bán sâu)
bán các mặt hàng giá cao hơn: nâng cấp – bổ sung tiện ích,
v.v.
khách hàng ưa mẫu mới
Phát hiện sở thích khách hàng
Bán sâu
deep-selling
bán một mặt hàng với lượng nhiều hơn: nên mua loại gói to
hơn, nên mua thêm cho người thân
Phát hiện sở thích khách hàng
3
Khái niệm cơ sở: Tập phổ biến và luật kết hợp
Một số ví dụ về “luật kết hợp” (associate rule)
• Các mặt hàng nào được mua cùng nhau?
o Bia và bỉm?!
o “98% khách hàng mà mua tạp chí thể thao thì đều mua
các tạp chí về ôtô” sự kết hợp giữa “tạp chí thể thao”
với “tạp chí về ôtô”
o “60% khách hàng mà mua bia tại siêu thị thì đều mua
bỉm trẻ em” sự kết hợp giữa “bia” với “bỉm trẻ em”
• “Có tới 70% người truy nhập Web vào địa chỉ Url 1 thì cũng
vào địa chỉ Url 2 trong một phiên truy nhập web” sự kết
hợp giữa “Url 1” với “Url 2”. Khai phá dữ liệu sử dụng Web
(Dữ liệu từ file log của các site, chẳng hạn được MS cung
cấp).
• Kiểu DNA nào nhạy cảm với thuốc mới này?
• Có khả năng tự động phân lớp Web hay không ?
• Xuất hiện từ: Tri thức must-links và Cannot-Links trong học
mô hình suổt đời.
6/2/23 4
Khái niệm cơ sở: Tập phổ biến và luật kết hợp
Cơ sở dữ liệu giao dịch (transaction database)
• Tập toàn bộ các mục I = {i1, i2, …, ik} “tất cả các mặt hàng”.
• Một giao dịch T là một tập con của I: T I. Giao dịch: danh sách các
mục (mục: item, mặt hàng) trong một phiếu mua hàng.
• CSDL giao dịch Mỗi giao dịch T có một định danh là TID.
• A là một tập mục A I và T là một giao dịch: Gọi T chứa A nếu A T.
• Tập mục (mẫu) phổ biến (frequent itemset)
• Đỗ hỗ trợ (support) tập mục A: (giai đoạn đầu)
• Ngày nay là “xác suất xuất hiện A trong CSDL D”.
• Cho trước độ hỗ trợ tối thiểu >0, tập mục A là tập mục phổ biến nếu ;
khi đó A cũng được gọi là một “mẫu phổ biến”
• “các mặt hàng thường được mua cùng nhau”
6/2/23 5
Khái niệm cơ sở: Tập phổ biến và luật kết hợp
• Luật kết hợp (association rules)
• Gọi A B là một “luật kết hợp” nếu A I, B I và AB=.
• Độ hỗ trợ của luật KH A B : s(A B) = s(AB). Độ tin cậy
(confidence) của luật KH A B là c(A B)= : xác suất P(B|A).
• Support (A B) = P(AB) : 1 s (A B) 0
• Confidence (A B) = P(B|A) : 1 c (A B) 0
• Luật mạnh
• Luật A B được gọi là đảm bảo độ hỗ trợ s nếu s(A B) s, đảm
bảo độ tin cậy c nếu c(A B) c.
• Cho độ hỗ trợ tối thiểu >0, độ tin cậy >0, luật A B là mạnh khi s(A
B) và c(A B) .
• Khai phá dữ liệu kết hợp
• Mẫu phổ biến và luật mạnh
6/2/23 6
Mẫu phổ biến và luật mạnh
6/2/23 7
Một ví dụ tìm luật kết hợp
6/2/23 8
Khai phá mẫu phổ biến và khai phá luật kết hợp
6/2/23 9
Khai phá mẫu phổ biến và luật kết hợp
Khai phá mẫu phổ biến: FIM
Cho trước một CSDL giao dịch D, độ hỗ trợ tối thiểu .
Tìm tất cả tập mục phổ biến từ D:
Nhận xét
Bài toán SRM là hệ quả của bài toán FIM.
FIM: nhận được
SRM: , xét , lập luật kết hợp , khi đó , như vậy, đã biết,
do đó tính và ; so sánhhai kết quả với độ tin cậy tối thiểu
.
6/2/23 10
Apriori: Một tiếp cận sinh ứng viên và kiểm tra
Khái quát: Khai phá luật kết hợp gồm hai bước:
Tìm mọi tập mục phổ biến: theo min-sup
vậy: Mọi giao dịch chứa {bia, bỉm, hạnh nhân} cũng chứa
{bia, bỉm}.
Nguyên lý tỉa Apriori: Với tập mục không phổ biến thì không
cần phải sinh ra/kiểm tra mọi tập bao nó!
6/2/23 11
Apriori: Một tiếp cận sinh ứng viên và kiểm tra
Trong thuật toán, các tên mục i1, i2, … in (n = |I|) được sắp xếp theo một
thứ tự cố định (thường được đánh chỉ số 1, 2, ..., n).
Phương pháp: Quy hoạch động theo độ dài tập mục
Độ dài tập mục: số mục trong tập mục
6/2/23 12
Sinh ứng viên
Đầu vào
• tập gồm mọi tập phổ biến có độ dài k
Đầu ra
• tập gồm mọi tập có độ dài k+1 có tính chất: X , X có độ
dài k thì X phải là tập phổ biến.
• Nguyên lý tỉa A priori: Mọi phải được tạo ra từ
Phương pháp
• Bước ghép: Sinh tập bằng cách ghép hai tập mục và
thuộc :
• ,
• ,
;
• Bước tỉa: Nếu thì bổ sung vào , ngược lại bỏ qua.
6/2/23 13
Sinh ứng viên: Mô tả
6/2/23 14
Thủ tục con Apriori-gen
6/2/23 15
Thuật toán Apriori
6/2/23 16
Thuật toán Apriori: một vài lưu ý
Mô tả khái quát
Trong mỗi bước k, thuật toán Apriori đều phải duyệt CSDL D.
Khởi động, duyệt D để có được F1.
Các bước k sau đó,
+ Sinh Ck+1
+ duyệt D để tính số lượng giao dịch t thoả từng ứng viên c của
Ck+1:
mỗi giao dịch t chỉ xem xét một lần cho mọi ứng viên c thuộc
Ck+1.
Tính đúng đắn và tính hữu hạn
Tìm đúng tập phổ biến và tìm hết tập phổ biến.
Tính hữu hạn
Sinh luật mạnh từ tập mục phổ biến
6/2/23 17
Một ví dụ thuật toán Apriori (s=0.5)
6/2/23 18
Sinh luật kết hợp
Việc sinh luật kết hợp gồm hai bước
Với mỗi tập phổ biến X tìm được hãy sinh ra mọi tập
Transac Items con thực sự Y khác rỗng của nó.
tion-id bought Với mỗi tập phố biến X và tập con Y khác rỗng thực sự
100 ABE
của nó: sinh luật Y (X – Y) nếu P(X-Y|Y) .
200 BD
Như ví dụ đã nêu có L3 = {ABC, ABE}
300 BC
Cho độ tin cậy tối thiểu =0.7 (70%)
400 ABD
500 AC 1) Với tập mục phổ biến X=ABE có 3 luật mạnh sau đây:
600 BC ABE c(ABE)=2/4=0.5
700 AC AEB c(AEB)=2/2=1.0
800 ABCE BEA c(BEA)=2/2=1.0
900 ABC
ABE c(ABE)=2/6=0.33
BAE c(BAE)=2/7=0.29
EAB c(EAB)=2/2=1.0
2) Làm tương tự với tập mục phổ biến Y=ABC
6/2/23 19
Thách thức khai phá mẫu phổ biến
Thách thức
Duyệt nhiều lần CSDL giao dịch
Lượng các ứng viên rất lớn
Tẻ nhạt việc tính toán độ hỗ trợ
Cải tiến Apriori: tư tưởng chung
Giảm nhẹ tính độ hỗ trợ của các ứng viên
Giảm số lần duyệt CSDL giao dịch
Rút gọn số lượng các ứng viên
Kiểu mẫu phổ biến mới
6/2/23 20
Cách thức tính độ hỗ trợ của ứng viên
Hàm băm Có tập các ứng viên độ dài 3 là 124, 125, 136,
3,6,9 145, 159, 234, 345, 356, 357, 367, 368, 457,
1,4,7 458, 567, 689
2,5,8 Thêm 145 vượt qua
124 ngưỡng, đưa 4 tập này
1, 4, 7 đi sang trái; 2, 5, 8 dừng ở giữa; 125 sang nút con trái. Vì 4 tập
3, 6, 9 đi sang phải
136 này đều vượt qua ngưỡng
nên tách thành 145; 124,
Thêm 159 bổ sung vào nút 125; 136
giữa cây con trái
Bộ đếm của ba ứng viên 125, 136, 356 được tăng thêm 1 với giao dịch t-12356
6/2/23 24
Ví dụ: Tính hỗ trợ các ứng viên
Hàm băm 1, 4, 7 đi sang trái; 2, 5, 8 dừng ở giữa; 3, 6, 9 đi sang phải
3,6,9
1,4,7 Giao dịch t=1 2 3 5 6 sinh mọi tập mục độ dài 3 : các
2,5,8 ứng viên: không bắt đầu bằng mục 5, 6
Bộ đếm của ba ứng viên 125, 136, 356 được tăng thêm 1 với giao dịch t-12356
6/2/23 25
Thắt cổ chai sinh ứng viên
6/2/23 26
DHP: Rút gọn số lượng ứng viên
6/2/23 27
KP mẫu phổ biến không cần sinh ƯV
6/2/23 28
DIC (Đếm tập mục động): Rút số lượng duyệt CSDL
Xây dựng dàn tập mục
Khi A và D được xác định là phổ biến thì
ABCD việc tính toán cho AD được bắt đầu
Khi mọi tập con độ dài 2 của BCD được
xác định là phổ biến: việc tính toán cho
ABC ABD ACD BCD BCD được bắt đầu.
Chia D thành k đoạn có M giao dịch. Mỗi
khi vượt qua k*M bỏ đi mức cũ.
AB AC BC AD BD CD
Transactions
1-itemsets
A B C D
Apriori 2-itemsets
…
{}
Itemset lattice 1-itemsets
S. Brin R. Motwani, J. Ullman, 2-items
and S. Tsur. Dynamic itemset DIC 3-items
counting and implication rules
for market basket data. In
SIGMOD’97
6/2/23 29
Giải pháp Phân hoạch: Duyệt CSDL chỉ hai lần
Mọi tập mục là phổ biến tiềm năng trong CSDL bắt
buộc phải phổ biến ít nhất một vùng của DB
Duyệt 1: Phân chia CSDL và tìm các mẫu cục bộ
6/2/23 30
Thuật toán FP duyệt CSDL hai lần
Cấu trúc dữ liệu
Cây FP và Bảng Header
Xây dựng cây FP
Sử dụng cây FP: Tìm mọi mẫu phổ biến từ cây FP
Cây FP: định nghĩa
Gốc nhãn Null bắt đầu mọi đường đi (vết) tập mục trong D
Mỗi nút gồm ba thành phần: <tên mục, số lần xuất hiện, con trỏ>
Số lần xuất hiện: số đường đi (nhánh con) từ gốc tới nút này
Con trỏ: liên kết đến nút cùng tên tiếp theo
Bảng header
Hai trường <Tên mục, con trỏ>
Con trỏ: trỏ tới nút đầu tiên có tên mục trên cây FP
6/2/23 31
Xây dựng cây FP từ một CSDL giao dịch: Minh họa
min_support = 3
T
100 A,C,D,F,G,I,M,P Duyệt 1. Xác định F_list và gốc cây
200 A,B,C,F,L,M,O
300 B,F,H,J,O,W F-list=f-c-a-b-m-p
400 B,C,K,P,S
500 A,C,E,F,L,M,N,P
Duyệt 2. mọi giao dịch: chỉ xét các mục trong F_list
T
100 FCAMP
200 FCABM
300 F,B
400 C,B,P
500 F,C,A,M,P
6/2/23 32
Xây dựng cây FP từ một CSDL giao dịch
1. Duyệt CSDL lần đầu tiên, tìm mọi 1-tập mục phổ biến.
Loại các mục có độ hỗ trợ < minsup.
Xếp các 1-tập mục phổ biến theo thứ tự giảm dần về độ
hỗ trợ (bậc): Tạo f-list (*).
Tạo gốc nhãn {root} của cây FP.
2. Duyệt CSDL lần thứ hai
Với mỗi giao dịch t:
Xếp thành xâu các mục phổ biến theo thứ tự (*) và
biểu diễn dưới dạng [p|TP] với p là mục đầu tiên, còn
TP là xâu mục còn lại;
Gọi insert_tree ([p|TP]), ): chèn mục p vào cây
6/2/23 33
Xây dựng cây FP: chèn một xâu vào cây
Thủ tục insert_tree (string[p|TP],T)
IF T có nút con N mà N.itemname=p.itemname
THEN N.count++
ELSE
Tạo nút con N mới của T;
N.Itemname:=p.itemname
N.count:=1
Bổ sung vào cuối dòng trên Header con trỏ tới
ENDIF
IF TP rỗng
THEN insert_tree (|[], N) //TP=
ENDIF
6/2/23 34
Xây dựng cây FP
TID Items bought (ordered) frequent items min_support = 3
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
6/2/23 35
Lợi ích của cấu trúc FP-tree
Tính đầy đủ
Duy trì tính đầy đủ thông tin để khai phá mẫu phổ biến
Tính cô đọng
Giảm các thông tin không liên quan: mục không phổ
biến bỏ đi
Sắp mục theo tần số giảm: xuất hiện càng nhiều thì
6/2/23 36
Tìm tập phổ biến từ cấu trúc FP-tree
6/2/23 37
Mẫu cực đại (Max-patterns)
Itemset Support
{A} 4
TID Items Itemset Support
{B} 5
1 {A,B} {A,B,C} 2
{C} 3
2 {B,C,D} {A,B,D} 3
{D} 4
3 {A,B,C,D} {A,C,D} 2
{A,B} 4
4 {A,B,D} {B,C,D} 3
{A,C} 2
5 {A,B,C,D} {A,B,C,D} 2
{A,D} 3
{B,C} 3
{B,D} 4
{C,D} 3
Phân biệt tập mục cực đại với tập mục đóng
TID Items
1 ABC
2 ABCD
3 BCE
4 ACDE
5 DE
Tập mục cực đại với tập phổ biến đóng
Tập mục cực đại với tập mục đóng
Tập mục cực đại với tập mục đóng
6/2/23 45
Kết hợp đa chiều
Luật đơn chiều (viết theo dạng quan hệ (đối tượng, giá trị)):
buys(X, “milk”) buys(X, “bread”)
Luật đa chiều: 2 chiều / thuộc tính
Luật kết hợp liên chiều (không có thuộc tính lặp)
age(X,”19-25”) occupation(X,“student”) buys(X,“coke”)
Luật KH chiều-kết hợp (lai/hybrid) (lặp thuộc tính)
age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”)
Thuộc tính phân lớp
Tìm số lượng các giá trị khả năng không được sắp
Thuộc tính định lượng
Số, thứ tự ngầm định trong miền giá trị
6/2/23 46
Kết hợp đa mức: Rút gọn lọc
6/2/23 47
Luật kết hợp định lượng
Ví dụ
age(X,”30-34”) income(X,”24K -
48K”)
buys(X,”high resolution TV”)
6/2/23 Data Mining: Concepts and Techniques 48
Khai phá luật KH dựa theo khoảng
Phương pháp đóng thùng không nắm bắt được ngữ nghĩa
của dữ liệu khoảng
Equi-width Equi-depth Distance-
Price($) (width $10) (depth 2) based
7 [0,10] [7,20] [7,7]
20 [11,20] [22,50] [20,22]
22 [21,30] [51,53] [50,53]
50 [31,40]
51 [41,50]
53 [51,60]
Phân vùng dựa trên khoảng, rời rạc có ý nghĩa hơn khi
xem xét :
Mật độ/ số điểm trong một khoảng
6/2/23 49
Độ đo hấp dẫn: Tương quan (nâng cao)
6/2/23 50
KPDL kết hợp dựa trên ràng buộc
6/2/23 51
Ràng buộc trong KPDL
Ràng buộc kiểu tri thức
classification, association, v.v.
Ràng buộc dữ liệu: dùng câu hỏi kiếu SQL
Tìm các cặp sản phẩm mua cùng nhau trong Vancouver vào Dec.’00
Ràng buộc chiều/cấp
Liên quan tới vùng, giá, loại hàng, lớp khách hàng
Ràng buộc luật (mẫu)
Mua hàng nhỏ (price < $10) nhiều hơn mua hàng lớn (sum > $200)
Ràng buộc hấp dẫn
Luật mạng: min_support 3%, min_confidence 60%
6/2/23 52
KP ràng buộc <> tìm kiếm theo ràng buộc
6/2/23 53
KP mẫu PB ràng buộc: tối ưu hóa câu hỏi
6/2/23 54
Chống đơn điêu trong KP theo ràng buộc
vS No
SV no
SV yes
min(S) v no
min(S) v yes
max(S) v yes
max(S) v no
count(S) v yes
count(S) v no
sum(S) v ( a S, a 0 ) yes
sum(S) v ( a S, a 0 ) no
range(S) v yes
range(S) v no
avg(S) v, { , , } convertible
support(S) yes
support(S) no
6/2/23 56
Tính cô đọng
Tính cô đọng:
Cho A1, là tập mục được gọi là bảo đảm cô đọng một
ràng buộc C, thì mọi S bảo đảm C là dựa trên A1 ,
chằng hạn như S chứa một tập con thuộc A1
Tư tưởng: Bỏ qua xem xét toàn bộ CSDL giao dịch,
có chăng một tập mục S bảo đảm ràng buộc C có thể
được xác định dựa theo việc chọn các mục
min(S.Price) v là cô đọng
sum(S.Price) v không cô đọng
Tối ưu hóa: Nếu C là cô đọng có thể đẩy đếm trước
6/2/23 57
Kiểu ràng buộc cô đọng
Ràng buộc Cô đọng
vS yes
SV yes
SV yes
min(S) v yes
min(S) v yes
max(S) v yes
max(S) v yes
count(S) v weakly
count(S) v weakly
sum(S) v ( a S, a 0 ) no
sum(S) v ( a S, a 0 ) no
range(S) v no
range(S) v no
avg(S) v, { , , } no
support(S) no
support(S) no
6/2/23 58
Luật kết hợp hiếm và luật kết hợp âm
Luật kết hợp hiếm hàm ý chỉ các LKH không xảy ra
thường xuyên trong CSDL.
Ví dụ
“máy pha cà phê” “máy xay cà phê” (0.8%, 80%).
[Koh05] Koh Y. S., Rountree N. (2005). Finding Sporadic Rules Using
Apriori-Inverse. Proc. of PAKDD2005, pp. 97-106.
“ăn chay” “bệnh tim mạch”. [Szathmary10] Szathmary L.,
Valtchev P., and Napoli A. (2010). Generating Rare Association Rules
Using Minimal Rare Itemsets Family. International Journal of Software
and Informatics, Vol. 4 (3), pp. 219-238.
"thuốc hạ lipid trong máu Cerivastatin" "tác động
xấu khi điều trị“. [Szathmary10]
Luật kết hợp âm hàm ý chỉ các LKH mà các mục là
xung khắc nhau trong CSDL “nếu A thì không B”.
59
Luật hiếm: Phân loại
[Koh16] Yun Sing Koh, Sri Devi Ravana. Unsupervised Rare Pattern Mining: A
Survey. TKDD 10(4): 45 (2016) 60
Khai phá luật kết hợp hiếm
Hai hướng tiếp cận chính phát hiện luật hiếm:
Sử dụng ràng buộc
Sử dụng ranh giới
Hạn chế của cách tiếp cận hiện tại:
Sinh mọi tập không phổ biến chi phí cao.
Thực hiện trên CSDL tác vụ.
61
Luật kết hợp hiếm sporadic tuyệt đối
63
gian
Công bố khoa học DBLP về mẫu chuỗi thời gian và mẫu dãy
6/2/23 64
Công cụ phần mềm liên quan
Phần mềm phân tích chuỗi thời gian EidoSearch: Trợ giúp đánh
dấu mẫu dữ liệu hấp dẫn và EidoSearch đi tìm mọi mẫu tương tự
từ quá khứ và hiện tại, phân tích kết quả tìm kiếm này, và chỉ ra
xu hướng gì sẽ xảy ra.
Gait-CAD Matlab toolbox: trực quan hóa và phân tích chuỗi thời
gian, bao gồm phân lớp, hồi quy, và phân cụm. Giấy phép GNU-
GPL.
Miningco: chương trình mã nguồn mở tự động tìm ra mẫu và quan
hệ trong weblogs và các bộ dữ liệu khác.
SAS Enterprise Miner
XAffinity (TM): xác định mối quan hệ thân hoặc mẫu trong giao
dịch và dòng dữ liệu nháy phím
http://www.kdnuggets.com/software/sequence.html
6/2/23 65
CSDL TT và PT MTT
CSDL giao dịch, CSDL chuỗi thời gian <> CSDL tuần tự
Mấu PB <> mấu TT (PB)
Ứng dụng của KP Mấu TT
Tuần tự mua của khách hàng:
Đầu tiên mua máy tính, sau đó CD-ROM, và sau đó là máy
ảnh số, trong vòng 3 tháng.
Phẫu thuật y tế, thảm họa tự nhiên (động đất…), quá trình KH
và kỹ nghệ, chứng khoán và thị trường….
Mẫu gọi điện thoại, dòng click tại Weblogs
Dãy DNA và cấu trúc gene
6/2/23 66
Khái niệm KP mấu TT
Cho một tập các dãy, tìm tập đầy đủ các dãy con
phổ biến