You are on page 1of 7

ĐỀ LẺ

ĐỀ 1_KIỂM TRA LẦN 2 (60’)

1. Khái niệm khai thác dữ liệu. Tại sao lại cần đến khai phá dữ liệu. Nêu các
bước trong khai phá dữ liệu.
2. Hãy nêu khái niệm độ hỗ trợ và độ tin cậy dùng để đo lường luật kết hợp và
cho biết công thức tính các tham số này.
3. Cho cơ sở dữ liệu giao dịch (Transaction Database-TDB) sau:

Tid Items
1 Anh đào, Chuối, Dứa
2 Bưởi, Chuối, Mía
3 Anh đào, Bưởi, Chuối, Mía
4 Bưởi, Mía

Cho biết min-sup=2; min_conf = 80%


Dùng thuật toán Apriori khai phá luật kết hợp trong bảng trên.

Câu 1:
Khai phá dữ liệu (phát hiện tri thức trong cơ sở dữ liệu sẵn có) là việc
trích lọc ra những thông tin có ích (không hiển nhiên, không tường minh,
không biết trước, và có ích một cách tiềm năng), những mẫu dữ liệu trong
các cơ sở dữ liệu lớn.

Khai phá dữ liệu có một số tên gọi khác khi được sử dụng khi được đề
cập đến trong cuộc sống cũng như trong sách và tạp chí khoa học như:

- Khám phá tri thức (knowledge discovery) trong cơ sở dữ liệu


(thường được viết tắt theo tiếng anh là KDD).

- Trích lọc tri thức

- Phân tích mẫu/dữ liệu

- Khảo cổ dữ liệu

- Tri thức kinh doanh (business intelligence) và còn nhiều


tên khác nữa ít dùng.

 Tại sao phải khai phá dữ liệu?


- Theo các báo cáo của IBM,  chỉ có 80% dữ liệu được  khai thác, 20% còn
lại ẩn  trong các Database là những tri thức quý giá.

- Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri
thức, nhằm:

- Rút trích thông tin hữu ích, chưa biết,  tiềm ẩn  trong khối dữ liệu lớn 

- Phân tích dữ liệu bán tự động

- Giải thích dữ liệu trên các tập dữ liệu lớn.

 Các bước trong khai phá dữ liệu

Quy trình khai phá dữ liệu thông thường gồm 10 bước:


B1: Nghiên cứu lĩnh vực
- Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định được
những tri thức ta cần chắt lọc, từ đó định hướng để tránh tốn thời gian
cho những tri thức không cần thiết.

B2: Tạo tập tin dữ liệu đầu vào


- Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể
lưu trữ và xử lý.

B3: Tiền xử lý, làm sạch, mã hóa


- Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần
thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho
quá trình xử lý.

B4: Rút gọn chiều


- Thông thường một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng
dữ liệu khổng lồ, ví dụ với n chiều ta sẽ có 2^n tổ hợp. Do đó, đây là
một bước quan trọng giúp giảm đáng kể hao tổn về tài nguyên trong
quá trình xử lý tri thức.

B5: Chọn tác vụ khai thác dữ liệu


- Để đạt được mục đích ta cần, ta cần chọn được tác vụ khai thác dữ liệu
sao cho phù hợp. Thông thường có các tác vụ sau:
 Đặc trưng (feature)
 Phân biệt (discrimination)
 Kết hợp (association)
 Phân lớp (classification)
 Gom cụm (clusterity)
 Xu thế (trend analysis)
 Phân tích độ lệch
 Phân tích hiếm

B6: Chọn các thuật giải Khai thác dữ liệu


B7: Khai thác dữ liệu: Tìm kiếm tri thức
- Sau khi tiến hành các bước trên thì đây là bước chính của cả quá
trình, ta sẽ tiến hành khai thác và tìm kiếm tri thức.

B8: Đánh giá mẫu tìm được


- Ta cần đánh giá lại xem trong các tri thức tìm được, ta sẽ sử đụng
được những tri thức nào, những tri thức nào dư thừa, không cần thiết

B9: Biểu diễn tri thức


- Ta biểu diễn tri thức vừa thu thập được dưới dạng ngôn ngữ tự nhiên
và hình thức sao cho người dùng có thể hiểu được những tri thức đó

B10: Sử dụng các tri thức vừa khám phá


- Ta có thể tham khảo tiến trình KDD (Knowledge Discovery in
Databases) để hiểu rõ hơn về Khai thác dữ liệu

Câu 2:

- Tập các mặt hàng là một tập hợp bao gồm một hoặc nhiều hơn một mặt
hàng.

- k-tập mặt hàng: là tập bao gồm k mặt hàng


- Đếm số hỗ trợ (σ) là tần số xuất hiện của một tập mặt hàng.

- Độ hỗ trợ là tỷ lệ các giao dịch có chứa một tập mặt hàng nào đó.

- Tập mặt hàng thường xuyên là một tập mặt hàng có độ hỗ trợ lớn hơn hoặc
bằng một ngưỡng được gọi là min_sup hay độ hỗ trợ nhỏ nhất.

- Luật kết hợp được thể hiện dưới dạng của X → Y, ở đó X,Y là tập các
mặt hàng

- Các độ đo để đánh giá một luật kết hợp

+ Độ hỗ trợ (s) là tỷ lệ các giao dịch chứa cả X và Y.

+ Độ tin cậy (c) dùng để đo các mặt hàng của Y xuất hiện trong các giao
dịch có chứa X.

-Nhiệm vụ khai phá tìm luật kết hợp: Cho trước một tập các giao dịch T,
mục tiêu của khai phá luật kết hợp là tìm ra tất cả các luật có độ hỗ trợ ≥ ngưỡng
minsup và độ tin cậy ≥ ngưỡng min_conf

 Công Thức:

s = σ và c = σ
|T| σ

Câu 3:

Bước 1: K=1 (I) tạo bảng chứa số support của từng mục có trong tập dữ liệu
- Được gọi là C1 (tập ứng viên)
Itemset Sup_count
Anh đào 2
Chuối 3
Dứa 1
Bưởi 3
Mía 3
(II) so sánh số support của tập các ứng cử viên với số lượng hỗ trợ tối thiểu (ở
đây min_support = 2 nếu support_count của tập ứng cử viên nhỏ hơn
min_support sẽ xóa các tập đó). Điều này cung cấp cho chúng ta mục L1.
Itemset Sup_count
Anh đào 2
Chuối 3
Bưởi 3
Mía 3

Bước 2: K = 2 Tạo tập ứng viên C2 bằng L1 (đây được gọi là bước kết hợp).
Điều kiện để có thể kết hợp Lk-1 với Lk-1 là hai tập cha đó phải có K-2 (trong
trường hợp này là 0) yếu tố chung . Duyệt qua các tập cha của C2, nếu tập cha
nào không đạt chuẩn thường xuyên thì tập con đó sẽ bị xóa. (Ví dụ tập hợp con
của {Anh đào, Chuối} là { Anh đào }, { Chuối } để kiểm tra độ thường xuyên
thường xuyên. Kiểm tra cho từng mục) Bây giờ tính độ thường xuyên của các
tập con mới được tạo.
Itemset Sup_count
Anh đào, Chuối 2
Anh đào, Bưởi 1
Anh đào, Mía 1
Chuối, Bưởi 2
Chuối, Mía 2
Bưởi, Mía 3
Tiếp tục kiểm tra độ thường xuyên của các tập trong C2, nếu tập nào không thỏa
mãn min_support thì xóa đi. Ta sẽ nhận được kết quả là tập L2.
Itemset Sup_count
Anh đào, Chuối 2
Chuối, Bưởi 2
Chuối, Mía 2
Bưởi, Mía 3

Bước 3: K = 3
‐ Lặp lại quy trình như bước 2 ta được hai tập.
‐ C3:

Itemset Sup_count
Anh đào, Chuối, Bưởi 1
Anh đào, Chuối, Mía 1
Chuối, Bưởi, Mía 2
‐ L3:

Itemset Sup_count
Chuối, Bưởi, Mía 2

Từ đó, chúng ta đã phát hiện ra tất cả các tập vật phẩm thường xuyên. Bây giờ
tính mạnh mẽ, bền chặt của một tập vật phẩm được chú ý tới. Cho rằng chúng ta
cần tính toán sự tự tin của từng tập.
Sự tự tin - Độ tin cậy 80% có nghĩa là 80% khách hàng mà mua sữa và bánh mì
cũng sẽ mua bơ.
[Chuối ^ Bưởi] => [Mía]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Chuối ^ Bưởi) = 2/2*100 =
100%
[Chuối ^ Mía] => [Bưởi]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Chuối ^ Mía) = 2/2*100 = 100%
[Bưởi ^ Mía] => [Chuối]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Bưởi ^ Mía) = 2/2*100 = 100%
[Chuối] => [Bưởi ^ Mía]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Chuối) = 2/3*100 = 66.67%
[Bưởi] => [Chuối ^ Mía]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Bưởi) = 2/3*100 = 66.67%
[Mía] => [Bưởi ^ Chuối]
confidence = sup(Chuối ^ Bưởi ^ Mía)/sup(Mía) = 2/3*100 = 66.67%
Với kết quả trên, nếu độ tin cậy tối thiểu là 80%, thì 3 quy tắc đầu tiên có thể
được coi là quy tắc kết hợp mạnh mẽ.

You might also like