You are on page 1of 16

Khai Phá Dữ Liệu

Nhóm 8
02
I. Khái niệm
• Khai phá luận kết hợp

Mục lục • Một số cụm từ liên quan

Khai phá dữ liệu II. Giới thiệu thuật toán

III. Thuật toán được áp dụng


• Các thuật toán được áp dụng
• Thuật toán FP Growth
• Lĩnh vực áp dụng

IV. Tài liệu tham khảo


03

I. Khái niệm
Khai phá luật kết hợp là việc phát hiện ra mối
quan hệ giữa các mục dữ liệu trong CSDL.
Xuất phát từ nhu cầu phân tích dữ liệu của
cơ sở dữ liệu giao tác, phát hiện các mối
quan hệ giữa các tập mục hàng hóa
(Itemsets) đã bán được tại các siêu thị.
Việc xác định các quan hệ này không phân
biệt vai trò khác nhau cũng như không
Architecture Presentation

dựa vào các đặc tính dữ liệu vốn có của


các mục dữ liệu mà chỉ dựa vào sự xuất
hiện cùng lúc của chúng.
04

Một số cụm từ liên quan

1. Sự kết hợp : các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch
2. Luật kết hợp : qui tắc kết hợp có điều kiện giữa các tập phần tử.
• Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử
• Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A -> B.
3. Support (độ hỗ trợ)
• Độ hỗ trợ của X là tần suất xuất hiện của X trong tất cả các giao dịch
-> Ký hiệu sup(X ,D) là tỉ lệ số giao dịch chỉ chứa X trên tổng số giao dịch D
• Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
• Ký hiệu : minsup -> Giá trị support nhỏ nhất được chỉ định bởi người dùng.
05
Một số cụm từ liên quan

4. Confidence (độ tin cậy)


• Độ tin cậy (confidence) của luật X → Y là tần suất Y xuất hiện trong các giao dịch có
X.
• Ký hiệu conf (X → Y , D) -> là tỉ lệ giữa số giao dịch chứa cả X và Y trên số giao
dịch chỉ chứa X.

• imum confidence threshold (ngưỡng tin cậy tối thiểu)


• Ký hiệu : minconf
-> Giá trị confidence nhỏ nhất được chỉ định bởi người dùng.
06

Một số cụm từ liên quan

5. Frequent itemset (tập phần tử phổ biến)


• Tập phần tử có support >= minimum support threshold.
• Cho A là một itemset
A là frequent itemset iff support(A) >= minimum support threshold.
6. Association rule A -> B [N% , M %] (Luật kết hợp)
• N là độ hỗ trợ
• M là độ tin cậy
7. Strong association rule (luật kết hợp mạnh)
• Luật kết hợp có support và confidence thỏa minsup threshold và minconf threshold.
• Cho luật kết hợp A -> B giữa A và B, A và B là itemsets
A->B là strong association rule nếu support(A->B) >= minimum support threshold và
confidence(A ->B) >= minimum confidence threshold.
07
02

II. Giới thiệu thuật toán


Khai phá dữ liệu

Bài toán phân tích giỏ thị trường (market


basket analysis)
08

Bài toán phân tích giỏ thị trường (market basket analysis)

1. Trong hệ thống cơ sở dữ liệu của cửa hàng có lưu trữ dữ liệu về các giao dịch mua hàng
của khách hàng với cửa hàng . Trong mỗi giao dịch sẽ có thông tin về người mua hàng,
các mặt hàng được mua ,ngày mua ,tổng tiền ,…

-> Bài toán đặt ra : Phân tích và thống kê dữ liệu dựa trên các giao dịch mua hàng để tìm
ra các tập phổ biến (Tức là tìm ra những mặt hàng hay đi với nhau được khách hàng mua
nhiều ) để từ đó đưa ra chiến lược kinh doanh tốt nhất .
09
Từ bài toán trên ta sẽ giải thích các cụm từ liên quan như sau :

• Item : là các phần tử ví dụ như : milk , bread ,….


• Items : là tập các phần tử ví dụ như : (milk , bread ), (milk ,bread ,sugar,cereal) ,…
• Transaction : có 4 giao dịch
• Tính supp(milk) : ta thấy ở đây có 4 giao dịch và sữa xuất hiện 3 lần nên supp (milk) = ¾ <->
75 %
• Tính supp(milk -> sugar) : ta thấy có 4 giao dịch và chỉ có 1 giao dịch có cả sữa và đường nên
supp(milk -> sugar) = ¼ <-> 25%

• Tính conf (milk -> bread) = supp(milk -> bread) / supp(milk) = ¾ / ¾= 1 <-> 100%
• Luật kết hợp
1. Milk bread [60% , 100%]
2. Độ hỗ trợ : supp(milk -> bread) = 60%
3. Độ tin cậy : conf(milk -> bread) = 100%
10

III. Thuật toán được áp dụng


• Các thuật toán được áp dụng

1 2 3 4

Thuật toán cơ bản Thuật toán Apriori Thuật toán Apriori Thuật toán Apriori
TID Hybrid

5
Thuật toán FP Growth
11
02
2. Thuật toán FP Growth
1. Ý nghĩa:
-Cô đọng (các thông tin chính) nhưng vẫn đủ để khai thác các tập
phổ biến
- Tránh được vấn đề "tốn kém" do phải duyệt cơ sở dữ liệu nhiều
lần.
2. Ý tưởng:
- Nén cơ sở dữ liệu vào cây FP-tree, chỉ giữ lại thông tin liên kết
(kết hợp) của các hạng mục (tập phổ biến).
- Chia CSDL nén thành CSDL có điều kiện , mỗi CSDL được chia
ra ứng với một hạng mục phổ biến và ta sẽ khai thác các CSDL này
Architecture Presentation

một cách độc lập.


3. Tính chất:
- Hai giao dịch có chứa cùng một số các mục, thì đường đi của
chúng sẽ có phần(đoạn) chung.
- Càng nhiều các đường đi có phần tử chung, thì việc biểu diễn
bằng FP-Tree sẽ càng gọn
12
4. Ví dụ:

Với min_sup = 0.5

-> Bảng sắp xếp theo thứ tự giảm dần theo tần số
13
-> Sắp xếp lại bảng 1 theo trình tự của độ phổ biến và loại bỏ các
phần tử không phổ biến:

-> Vẽ cây FP tree


14
-> Tìm các mẫu phổ biến của từng nốt:
• Ví dụ với nốt p, từ gốc {} tới nốt p có 2 đường chính là fcam:2 và cb:1 (số theo sau
là số lần xuất hiện của p tương ứng với mỗi tiền tố đó)
fcam:2 và cb:1 trộn lại thành f:2, c:3, a:2, m:2, b:1
min_sup=0.5 => giữ lại các nốt có tần số >= 3
-> Chỉ c:3 thoả mãn
-> Các mẫu phổ biến chứa p là: p, cp;
-> Làm tương tự với tất cả các nốt khác.

3. Lĩnh vực áp dụng


• Phân tích dữ liệu giỏ hàng
• Tiếp thị chéo
• Thiết kế catalog
• Phân loại dữ liệu và gom cụm dữ liệu với các mẫu phổ biến
15

IV. Tài liệu tham khảo


https://viblo.asia/p/khai-pha-mau-pho-bien-va-luat-ket-hop-gGJ59QAa5X2

http://scholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm_-_chapter_6_-
_association_rule.pdf
16

Cảm ơn thầy đã xem!

You might also like