Professional Documents
Culture Documents
15 Trần Duy Đông 19CN1 KT2 KhoDL
15 Trần Duy Đông 19CN1 KT2 KhoDL
1. Khái niệm khai thác dữ liệu. Tại sao lại cần đến khai phá dữ liệu. Nêu các
bước trong khai phá dữ liệu.
2. Hãy nêu khái niệm độ hỗ trợ và độ tin cậy dùng để đo lường luật kết hợp và
cho biết công thức tính các tham số này.
3. Cho cơ sở dữ liệu giao dịch (Transaction Database-TDB) sau:
Tid Items
1 Anh đào, Chuối, Dứa
2 Bưởi, Chuối, Mía
3 Anh đào, Bưởi, Chuối, Mía
4 Bưởi, Mía
Câu 1:
Khai phá dữ liệu (phát hiện tri thức trong cơ sở dữ liệu sẵn có) là việc
trích lọc ra những thông tin có ích (không hiển nhiên, không tường minh,
không biết trước, và có ích một cách tiềm năng), những mẫu dữ liệu trong
các cơ sở dữ liệu lớn.
Khai phá dữ liệu có một số tên gọi khác khi được sử dụng khi được đề
cập đến trong cuộc sống cũng như trong sách và tạp chí khoa học như:
- Khảo cổ dữ liệu
- Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri
thức, nhằm:
- Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn
Câu 2:
- Tập các mặt hàng là một tập hợp bao gồm một hoặc nhiều hơn một mặt
hàng.
- Độ hỗ trợ là tỷ lệ các giao dịch có chứa một tập mặt hàng nào đó.
- Tập mặt hàng thường xuyên là một tập mặt hàng có độ hỗ trợ lớn hơn hoặc
bằng một ngưỡng được gọi là min_sup hay độ hỗ trợ nhỏ nhất.
- Luật kết hợp được thể hiện dưới dạng của X → Y, ở đó X,Y là tập các
mặt hàng
+ Độ tin cậy (c) dùng để đo các mặt hàng của Y xuất hiện trong các giao
dịch có chứa X.
-Nhiệm vụ khai phá tìm luật kết hợp: Cho trước một tập các giao dịch T,
mục tiêu của khai phá luật kết hợp là tìm ra tất cả các luật có độ hỗ trợ ≥ ngưỡng
minsup và độ tin cậy ≥ ngưỡng min_conf
Công Thức:
s = σ và c = σ
|T| σ
Câu 3:
Bước 1: K=1 (I) tạo bảng chứa số support của từng mục có trong tập dữ liệu
- Được gọi là C1 (tập ứng viên)
Itemset Sup_count
Anh đào 2
Chuối 3
Dứa 1
Bưởi 3
Mía 3
(II) so sánh số support của tập các ứng cử viên với số lượng hỗ trợ tối thiểu (ở
đây min_support = 2 nếu support_count của tập ứng cử viên nhỏ hơn
min_support sẽ xóa các tập đó). Điều này cung cấp cho chúng ta mục L1.
Itemset Sup_count
Anh đào 2
Chuối 3
Bưởi 3
Mía 3
Bước 2: K = 2 Tạo tập ứng viên C2 bằng L1 (đây được gọi là bước kết hợp).
Điều kiện để có thể kết hợp Lk-1 với Lk-1 là hai tập cha đó phải có K-2 (trong
trường hợp này là 0) yếu tố chung . Duyệt qua các tập cha của C2, nếu tập cha
nào không đạt chuẩn thường xuyên thì tập con đó sẽ bị xóa. (Ví dụ tập hợp con
của {Anh đào, Chuối} là { Anh đào }, { Chuối } để kiểm tra độ thường xuyên
thường xuyên. Kiểm tra cho từng mục) Bây giờ tính độ thường xuyên của các
tập con mới được tạo.
Itemset Sup_count
Anh đào, Chuối 2
Anh đào, Bưởi 1
Anh đào, Mía 1
Chuối, Bưởi 2
Chuối, Mía 2
Bưởi, Mía 3
Tiếp tục kiểm tra độ thường xuyên của các tập trong C2, nếu tập nào không thỏa
mãn min_support thì xóa đi. Ta sẽ nhận được kết quả là tập L2.
Itemset Sup_count
Anh đào, Chuối 2
Chuối, Bưởi 2
Chuối, Mía 2
Bưởi, Mía 3
Bước 3: K = 3
‐ Lặp lại quy trình như bước 2 ta được hai tập.
‐ C3:
Itemset Sup_count
Anh đào, Chuối, Bưởi 1
Anh đào, Chuối, Mía 1
Chuối, Bưởi, Mía 2
‐ L3:
Itemset Sup_count
Chuối, Bưởi, Mía 2
Từ đó, chúng ta đã phát hiện ra tất cả các tập vật phẩm thường xuyên. Bây giờ
tính mạnh mẽ, bền chặt của một tập vật phẩm được chú ý tới. Cho rằng chúng ta
cần tính toán sự tự tin của từng tập.
Sự tự tin - Độ tin cậy 80% có nghĩa là 80% khách hàng mà mua sữa và bánh mì
cũng sẽ mua bơ.
[Chuối ^ Bưởi] => [Mía]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Chuối ^ Bưởi) = 2/2*100 =
100%
[Chuối ^ Mía] => [Bưởi]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Chuối ^ Mía) = 2/2*100 = 100%
[Bưởi ^ Mía] => [Chuối]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Bưởi ^ Mía) = 2/2*100 = 100%
[Chuối] => [Bưởi ^ Mía]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Chuối) = 2/3*100 = 66.67%
[Bưởi] => [Chuối ^ Mía]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Bưởi) = 2/3*100 = 66.67%
[Mía] => [Bưởi ^ Chuối]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Mía) = 2/3*100 = 66.67%
Với kết quả trên, nếu độ tin cậy tối thiểu là 80%, thì 3 quy tắc đầu tiên có thể
được coi là quy tắc kết hợp mạnh mẽ.