Professional Documents
Culture Documents
FP Algorithms Report
FP Algorithms Report
Bài toán tìm tập luật phổ biến trong tập hóa đơn bán hàng sử dụng một số cấu trúc dữ liệu
quan trọng sau đây:
1. Transaction Data (Dữ liệu giao dịch): Dữ liệu gốc chứa thông tin về các giao dịch hoặc hóa
đơn mua sắm. Mỗi giao dịch hoặc hóa đơn được biểu diễn dưới dạng danh sách các mặt hàng
(items) đã mua trong giao dịch đó. Cấu trúc dữ liệu này không cần đặc trưng, nhưng dữ liệu
cần được biểu diễn theo cách nào đó để có thể xử lý bằng mã.
Ví dụ:
Transaction 1: [item1, item2, item3]
Transaction 2: [item1, item4]
Transaction 3: [item2, item3, item4]
Transaction 4: [item1, item2, item3]
Transaction 5: [item2, item3]
2. Frequent Itemset (Tập luật phổ biến): Cấu trúc dữ liệu này đại diện cho các tập hợp các
mặt hàng (items) mà thường xuất hiện cùng nhau trong các giao dịch. Một frequent itemset
có một giá trị support (tần suất) đo lường số lần xuất hiện của tập hợp này trong tập dữ liệu
gốc. Cấu trúc này thường bao gồm:
Ví dụ:
{item1, item2}: Support = 3
{item2, item3}: Support = 4
3. Association Rules (Luật kết hợp): Kết quả chính của bài toán là các luật kết hợp
(association rules). Mỗi luật kết hợp gồm hai phần: antecedent (premise) và consequent
(conclusion). Cấu trúc này chứa các luật kết hợp và thông tin về độ tin cậy (confidence) của
chúng. Cấu trúc này thường bao gồm:
- Tập hợp antecedent (premise), thường là một tập hợp các mặt hàng.
- Tập hợp consequent (conclusion), thường là một tập hợp các mặt hàng.
- Giá trị confidence đo lường mức độ của mối quan hệ giữa antecedent và consequent.
Ví dụ:
{item1} => {item2}: Confidence = 0.75
{item2, item3} => {item4}: Confidence = 1.0
4. FP-Tree (Frequent Pattern Tree): Đây là một cấu trúc dữ liệu quan trọng trong giải thuật
FP-Growth. FP-Tree được sử dụng để biểu diễn tần suất của các frequent itemset và để tạo
các luật kết hợp. FP-Tree bao gồm các nút (nodes) và các cạnh (edges). Mỗi nút đại diện cho
một item, và mỗi cạnh kết nối một item với các item khác. FP-Tree giúp cải thiện hiệu suất
tìm kiếm các tập luật phổ biến.
5. Counters và Tables (Bảng): Trong quá trình xây dựng FP-Tree và tính toán frequent
itemset, các counters và tables được sử dụng để theo dõi tần suất xuất hiện của các item và
các itemset trong dữ liệu.
Cấu trúc dữ liệu chính yếu dựa vào quy trình tìm frequent itemset và luật kết hợp trong bài
toán. FP-Growth sử dụng FP-Tree và bảng (tables) để thực hiện các phân tích này một cách
hiệu quả. Sau đó, frequent itemset và luật kết hợp được trích xuất từ cấu trúc dữ liệu này để
giúp hiểu hơn về mô hình mua sắm của khách hàng và đưa ra quyết định kinh doanh cụ thể.