Khai phá dữ liệu 2

Khai Phá Dữ Liệu
Nhóm 8
02
I. Khái niệm
• Khai phá luận kết hợp
Mục lục • Một số cụm từ liên quan
Khai phá dữ liệu II. Giới thiệu thuật toán
III. Thuật toán được áp dụng

• Các thuật toán được áp dụng
• Thuật toán FP Growth
• Lĩnh vực áp dụng
IV. Tài liệu tham khảo

03
I. Khái niệm
Khai phá luật kết hợp là việc phát hiện ra mối
quan hệ giữa các mục dữ liệu trong CSDL.
Xuất phát từ nhu cầu phân tích dữ liệu của
cơ sở dữ liệu giao tác, phát hiện các mối
quan hệ giữa các tập mục hàng hóa
(Itemsets) đã bán được tại các siêu thị.
Việc xác định các quan hệ này không phân
biệt vai trò khác nhau cũng như không
Architecture Presentation
dựa vào các đặc tính dữ liệu vốn có của

các mục dữ liệu mà chỉ dựa vào sự xuất
hiện cùng lúc của chúng.
04
Một số cụm từ liên quan
1. Sự kết hợp : các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch
2. Luật kết hợp : qui tắc kết hợp có điều kiện giữa các tập phần tử.
• Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử
• Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A -> B.
3. Support (độ hỗ trợ)
• Độ hỗ trợ của X là tần suất xuất hiện của X trong tất cả các giao dịch
-> Ký hiệu sup(X ,D) là tỉ lệ số giao dịch chỉ chứa X trên tổng số giao dịch D
• Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
• Ký hiệu : minsup -> Giá trị support nhỏ nhất được chỉ định bởi người dùng.
05
4. Confidence (độ tin cậy)

• Độ tin cậy (confidence) của luật X → Y là tần suất Y xuất hiện trong các giao dịch có
X.
• Ký hiệu conf (X → Y , D) -> là tỉ lệ giữa số giao dịch chứa cả X và Y trên số giao
dịch chỉ chứa X.
• imum confidence threshold (ngưỡng tin cậy tối thiểu)

• Ký hiệu : minconf
-> Giá trị confidence nhỏ nhất được chỉ định bởi người dùng.
06
5. Frequent itemset (tập phần tử phổ biến)

• Tập phần tử có support >= minimum support threshold.
• Cho A là một itemset
A là frequent itemset iff support(A) >= minimum support threshold.
6. Association rule A -> B [N% , M %] (Luật kết hợp)
• N là độ hỗ trợ
• M là độ tin cậy
7. Strong association rule (luật kết hợp mạnh)
• Luật kết hợp có support và confidence thỏa minsup threshold và minconf threshold.
• Cho luật kết hợp A -> B giữa A và B, A và B là itemsets
A->B là strong association rule nếu support(A->B) >= minimum support threshold và
confidence(A ->B) >= minimum confidence threshold.
07
02
II. Giới thiệu thuật toán

Khai phá dữ liệu
Bài toán phân tích giỏ thị trường (market

basket analysis)
08
Bài toán phân tích giỏ thị trường (market basket analysis)
1. Trong hệ thống cơ sở dữ liệu của cửa hàng có lưu trữ dữ liệu về các giao dịch mua hàng
của khách hàng với cửa hàng . Trong mỗi giao dịch sẽ có thông tin về người mua hàng,
các mặt hàng được mua ,ngày mua ,tổng tiền ,…
-> Bài toán đặt ra : Phân tích và thống kê dữ liệu dựa trên các giao dịch mua hàng để tìm
ra các tập phổ biến (Tức là tìm ra những mặt hàng hay đi với nhau được khách hàng mua
nhiều ) để từ đó đưa ra chiến lược kinh doanh tốt nhất .
09
Từ bài toán trên ta sẽ giải thích các cụm từ liên quan như sau :
• Item : là các phần tử ví dụ như : milk , bread ,….

• Items : là tập các phần tử ví dụ như : (milk , bread ), (milk ,bread ,sugar,cereal) ,…
• Transaction : có 4 giao dịch
• Tính supp(milk) : ta thấy ở đây có 4 giao dịch và sữa xuất hiện 3 lần nên supp (milk) = ¾ <->
75 %
• Tính supp(milk -> sugar) : ta thấy có 4 giao dịch và chỉ có 1 giao dịch có cả sữa và đường nên
supp(milk -> sugar) = ¼ <-> 25%
• Tính conf (milk -> bread) = supp(milk -> bread) / supp(milk) = ¾ / ¾= 1 <-> 100%
• Luật kết hợp
1. Milk bread [60% , 100%]
2. Độ hỗ trợ : supp(milk -> bread) = 60%
3. Độ tin cậy : conf(milk -> bread) = 100%
10
III. Thuật toán được áp dụng

• Các thuật toán được áp dụng
1 2 3 4
Thuật toán cơ bản Thuật toán Apriori Thuật toán Apriori Thuật toán Apriori
TID Hybrid
5
Thuật toán FP Growth
11
02
2. Thuật toán FP Growth
1. Ý nghĩa:
-Cô đọng (các thông tin chính) nhưng vẫn đủ để khai thác các tập
phổ biến
- Tránh được vấn đề "tốn kém" do phải duyệt cơ sở dữ liệu nhiều
lần.
2. Ý tưởng:
- Nén cơ sở dữ liệu vào cây FP-tree, chỉ giữ lại thông tin liên kết
(kết hợp) của các hạng mục (tập phổ biến).
- Chia CSDL nén thành CSDL có điều kiện , mỗi CSDL được chia
ra ứng với một hạng mục phổ biến và ta sẽ khai thác các CSDL này
Architecture Presentation
một cách độc lập.

3. Tính chất:
- Hai giao dịch có chứa cùng một số các mục, thì đường đi của
chúng sẽ có phần(đoạn) chung.
- Càng nhiều các đường đi có phần tử chung, thì việc biểu diễn
bằng FP-Tree sẽ càng gọn
12
4. Ví dụ:
Với min_sup = 0.5
-> Bảng sắp xếp theo thứ tự giảm dần theo tần số
13
-> Sắp xếp lại bảng 1 theo trình tự của độ phổ biến và loại bỏ các
phần tử không phổ biến:
-> Vẽ cây FP tree

14
-> Tìm các mẫu phổ biến của từng nốt:
• Ví dụ với nốt p, từ gốc {} tới nốt p có 2 đường chính là fcam:2 và cb:1 (số theo sau
là số lần xuất hiện của p tương ứng với mỗi tiền tố đó)
fcam:2 và cb:1 trộn lại thành f:2, c:3, a:2, m:2, b:1
min_sup=0.5 => giữ lại các nốt có tần số >= 3
-> Chỉ c:3 thoả mãn
-> Các mẫu phổ biến chứa p là: p, cp;
-> Làm tương tự với tất cả các nốt khác.
3. Lĩnh vực áp dụng

• Phân tích dữ liệu giỏ hàng
• Tiếp thị chéo
• Thiết kế catalog
• Phân loại dữ liệu và gom cụm dữ liệu với các mẫu phổ biến
15
IV. Tài liệu tham khảo

https://viblo.asia/p/khai-pha-mau-pho-bien-va-luat-ket-hop-gGJ59QAa5X2
http://scholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm_-_chapter_6_-
_association_rule.pdf
16
Cảm ơn thầy đã xem!

Khai phá dữ liệu 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Khai phá dữ liệu 2

Uploaded by

Copyright:

Available Formats

Khai Phá Dữ Liệu

Mục lục • Một số cụm từ liên quan

Khai phá dữ liệu II. Giới thiệu thuật toán

III. Thuật toán được áp dụng

IV. Tài liệu tham khảo

dựa vào các đặc tính dữ liệu vốn có của

Một số cụm từ liên quan

4. Confidence (độ tin cậy)

• imum confidence threshold (ngưỡng tin cậy tối thiểu)

Một số cụm từ liên quan

5. Frequent itemset (tập phần tử phổ biến)

II. Giới thiệu thuật toán

Bài toán phân tích giỏ thị trường (market

• Item : là các phần tử ví dụ như : milk , bread ,….

III. Thuật toán được áp dụng

một cách độc lập.

Với min_sup = 0.5

-> Vẽ cây FP tree

3. Lĩnh vực áp dụng

IV. Tài liệu tham khảo

Cảm ơn thầy đã xem!

You might also like