Professional Documents
Culture Documents
Khai phá dữ liệu 2
Khai phá dữ liệu 2
Nhóm 8
02
I. Khái niệm
• Khai phá luận kết hợp
I. Khái niệm
Khai phá luật kết hợp là việc phát hiện ra mối
quan hệ giữa các mục dữ liệu trong CSDL.
Xuất phát từ nhu cầu phân tích dữ liệu của
cơ sở dữ liệu giao tác, phát hiện các mối
quan hệ giữa các tập mục hàng hóa
(Itemsets) đã bán được tại các siêu thị.
Việc xác định các quan hệ này không phân
biệt vai trò khác nhau cũng như không
Architecture Presentation
1. Sự kết hợp : các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch
2. Luật kết hợp : qui tắc kết hợp có điều kiện giữa các tập phần tử.
• Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử
• Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A -> B.
3. Support (độ hỗ trợ)
• Độ hỗ trợ của X là tần suất xuất hiện của X trong tất cả các giao dịch
-> Ký hiệu sup(X ,D) là tỉ lệ số giao dịch chỉ chứa X trên tổng số giao dịch D
• Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
• Ký hiệu : minsup -> Giá trị support nhỏ nhất được chỉ định bởi người dùng.
05
Một số cụm từ liên quan
Bài toán phân tích giỏ thị trường (market basket analysis)
1. Trong hệ thống cơ sở dữ liệu của cửa hàng có lưu trữ dữ liệu về các giao dịch mua hàng
của khách hàng với cửa hàng . Trong mỗi giao dịch sẽ có thông tin về người mua hàng,
các mặt hàng được mua ,ngày mua ,tổng tiền ,…
-> Bài toán đặt ra : Phân tích và thống kê dữ liệu dựa trên các giao dịch mua hàng để tìm
ra các tập phổ biến (Tức là tìm ra những mặt hàng hay đi với nhau được khách hàng mua
nhiều ) để từ đó đưa ra chiến lược kinh doanh tốt nhất .
09
Từ bài toán trên ta sẽ giải thích các cụm từ liên quan như sau :
• Tính conf (milk -> bread) = supp(milk -> bread) / supp(milk) = ¾ / ¾= 1 <-> 100%
• Luật kết hợp
1. Milk bread [60% , 100%]
2. Độ hỗ trợ : supp(milk -> bread) = 60%
3. Độ tin cậy : conf(milk -> bread) = 100%
10
1 2 3 4
Thuật toán cơ bản Thuật toán Apriori Thuật toán Apriori Thuật toán Apriori
TID Hybrid
5
Thuật toán FP Growth
11
02
2. Thuật toán FP Growth
1. Ý nghĩa:
-Cô đọng (các thông tin chính) nhưng vẫn đủ để khai thác các tập
phổ biến
- Tránh được vấn đề "tốn kém" do phải duyệt cơ sở dữ liệu nhiều
lần.
2. Ý tưởng:
- Nén cơ sở dữ liệu vào cây FP-tree, chỉ giữ lại thông tin liên kết
(kết hợp) của các hạng mục (tập phổ biến).
- Chia CSDL nén thành CSDL có điều kiện , mỗi CSDL được chia
ra ứng với một hạng mục phổ biến và ta sẽ khai thác các CSDL này
Architecture Presentation
-> Bảng sắp xếp theo thứ tự giảm dần theo tần số
13
-> Sắp xếp lại bảng 1 theo trình tự của độ phổ biến và loại bỏ các
phần tử không phổ biến:
http://scholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm_-_chapter_6_-
_association_rule.pdf
16