Khai thác dữ liệu và ứng dụng BÀI TẬP NỘP SỐ 3 Khai thác tập phổ biến và luật kết

hợp Sinh viên đại diện nhóm upload một tập tin <tên nhóm>.zip hoặc <tên nhóm>.rar nén bên trong là các tập tin cần thiết cho bài nộp Những dòng đầu của tập tin báo cáo là: Tên nhóm Danh sách các thành viên trong nhóm có tham gia vào bài tập Tỉ lệ đóng góp của mỗi thành viên.

Lưu ý: - Bài nộp không theo đúng quy định này sẽ bị trừ điểm - Mỗi nhóm phải tự làm bài. Các bài làm giống nhau sẽ bị điểm 0. A. Lý thuyết 1. Hãy tìm hiểu trong tài liệu tham khảo và trình bày chi tiết một phương pháp cải tiến quá trình tìm luật kết hợp từ tập phổ biến (cải tiến Bước 2 trong qui trình khai thác luật kết hợp. Không phải trình bày cải tiến thuật tóan tìm tập phổ biến). Giải thích vì sao nó hiệu quả hơn. Cho ví dụ minh họa. 2. Cho CSDL sau và minsupp=50%, minconf=100% TID 100 200 300 400 Items_bought A, B, E, C, K, D, P B, A, D, C, I , K, F I, B, A, D, K , M C, E, D, A, B , P

a) Sử dụng thuật toán Apriori để tìm tất cả các tập phổ biến. Sử dụng thuật toán FpGrowth để tìm tất cả các tập phổ biến. So sánh kết quả. Liệt kê tập phổ biến tối đại, tập phổ biến đóng. b) Tìm tất cả LKH có dạng (item 1^ item 2 -> item 3) thỏa mãn ngưỡng minsupp và minconf đã cho. c) Ứng dụng cải tiến của câu 1 vào việc tìm các luật kết hợp ở câu b thỏa mãn ngưỡng minconf. So sánh hiệu quả về thời gian thực hiện với kết quả ở câu b).

09/2010

Leverage. 5. Hãy nhận xét chung về các tập phổ biến ở 2a và 2b và theo bạn đánh giá thì nếu khai thác luật kết hợp dựa trên các tập phổ biến này liệu ta có được điều gì thú vị không? 3. Trong đó a: tỉ lệ % lượt mua cho món hàng được mua ít nhất. Số lượt mua trung bình của các món hàng là bao nhiêu. Thỏa Support trong đoạn [0. b. 4. b: tỉ lệ % lượt mua cho món hàng được mua nhiều nhất (sử dụng kết quả của câu 1). Có luật nào mặc dù các độ đo cho kết quả thấp nhưng lại lý thú và ngược lại? Từ đó nhận xét về khả năng áp dụng của các độ đo tính lý thú cho luật kết hợp. 09/2010 . theo bạn luật nào là thú vị luật nào là không thú vị (có giải thích). Cho biết số lượt mua của mỗi món hàng (liệt kê vào bảng). Lift. Trong file dữ liệu thì “1” có nghĩa là được mua.Khai thác dữ liệu và ứng dụng B. Thực hành Tập dữ liệu: Foodmark. đồng thời cho biết giá trị 4 độ đo Confidence. Giá trị Minsupp d. Input bằng tham số dòng lệnh: a b c d e Trong đó: a. “0” có nghĩa là không được mua. 2.95. Thỏa Support trong đoạn [a. Câu hỏi: 1. Tên chương trình b. Sử dụng thuật toán Apriori trong Weka tìm và liệt kê 8 luật kết hợp có Confidence cao nhất theo Support ở 2a và 2b. Tập tin đầu ra (lưu kết quả).xls (đính kèm trên moodle). món hàng nào được mua ít nhất. Conviction của các luật này. Quan sát các luật kết hợp ở câu 3. Tập tin FoodMart. (Cộng điểm) Viết chương trình (SV tự lựa chọn ngôn ngữ lập trình) khai thác các tập phổ biến nằm trong khoảng Support cho trước.xls chứa thông tin về hơn 2000 giao dịch mua hàng với 100 món hàng khác nhau. Đường dẫn tập dữ liệu đầu vào theo định dạng csv. Giá trị Maxsupp e. b]. Món hàng nào được mua nhiều nhất. các thuộc tính rời rạc và không có giá trị thiếu. 1]. Sử dụng thuật toán Apriori trong Weka tìm và cho biết số lượng tập phổ biến (liệt kê theo từng số lượng hạng mục) a. c.

E: 4 Hết 09/2010 .Khai thác dữ liệu và ứng dụng Cấu trúc tập tin kết quả: L(1): <số tập phổ biến 1 hạng mục> <tập phổ biến 1 hạng mục 1>: tần suất <tập phổ biến 1 hạng mục 2>: tần suất … <tập phổ biến 1 hạng mục k>: tần suất L(2): <số tập phổ biến 2 hạng mục> <tập phổ biến 2 hạng mục 1>: tần suất <tập phổ biến 2 hạng mục 2>: tần suất … <tập phổ biến 2 hạng mục k>: tần suất L(n): <số tập phổ biến n hạng mục> <tập phổ biến n hạng mục 1>: tần suất <tập phổ biến n hạng mục 2>: tần suất … <tập phổ biến n hạng mục k>: tần suất Ví dụ: L(1): 3 A: 5 B: 5 E: 8 L(2): 2 A. B: 5 A.

Sign up to vote on this title
UsefulNot useful