You are on page 1of 11

KHAI THÁC

DỮ LIỆU &
ỨNG DỤNG
(DATA MINING)
GV : NGUYỄN HOÀNG TÚ ANH

ÔN TẬP
2

1
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
• Hệ thống thang điểm :
– Bài thi lý thuyết : 7 điểm
– Bài tập theo nhóm : 1.5 điểm
– Bài kiểm tra giữa kỳ : 1.5 điểm

33

Cấu trúc đề thi cuối kỳ


1. Thời gian : 120’
2. Được sử dụng tài liệu, không sử dụng
Laptop.
3. Đề thi gồm 3 câu
a) Câu 1(3 điểm): nội dung thuộc chương 3
: Tập phổ biến và luật kết hợp.
b) Câu 2 (3 điểm): nội dung thuộc chương 4
và 5 : Phân lớp, gom nhóm
c) Câu 3 (1điểm):câu hỏi dạng phân tích,
tổng hợp từ kiến thức của tất cả các
4
chương.

2
ÔN TẬP
Chương 1 :
1. Khai thác dữ liệu là gì?
 Quá trình không tầm thường của việc xác
định các mẫu tiềm ẩn có tính hợp lệ, mới lạ,
có ích và có thể hiểu được tối đa trong
CSDL.
2. Nguyên nhân nào dẫn đến sự cần thiết của
lĩnh vực khai thác dữ liệu ?
 Sự phát triển của công nghệ phần cứng,
công nghệ thu thập & quản lý DL, các thuật
toán phát triển mạnh.
 Nhu cầu phân tích dữ liệu để hỗ trợ quá
trình ra quyết định. 5

ÔN TẬP
Chương 1 :
3. Các kiểu dữ liệu và các loại thông tin nào có
thể được sử dụng trong quá trình khám phá
tri thức từ dữ liệu (KDD)?
 Các loại thông tin : thông tin thương mại,
sản xuất, khoa học và thông tin cá nhân.
 Các kiểu dữ liệu : DL có thuộc tính dạng phi
số, dạng liên tục, DL dạng tĩnh, động, DL
phân tán, DL văn bản, web, đa phương tiện:
hình ảnh, audio, video, …
4. Trình bày một vài ví dụ thực tế có sử dụng
loại dữ liệu, thông tin đã nêu trên.
 www.kdnuggets.com/solutions/index.html
6

3
ÔN TẬP
Chương 1 :
5. Khai thác dữ liệu gồm các loại nhiệm
vụ nào?
 Nhiệm vụ mô tả và dự đoán.
 Dựa trên kinh nghiệm bản thân, theo các
em loại nhiệm vụ nào của khai thác dữ
liệu được quan tâm nhiều nhất và được
ứng dụng nhiều trong :
 Lĩnh vực kinh doanh
 Lĩnh vực giáo dục
7

ÔN TẬP
Chương 2 :
6. Tại sao cần chuẩn bị DL?
 Do chất lượng DL trong thực tế là xấu.
 Chất lượng DL sẽ ảnh hưởng đến quá trình
ra quyết định.
7. Các bước trong quá trình chuẩn bị DL ? Cho
ví dụ cụ thể từng bước.
 Làm sạch DL -> Chọn lọc/ Tích hợp DL ->
Biến đổi/ mã hóa DL -> Rút gọn DL
8. Phương pháp chia giỏ, phương pháp sử dụng
biểu đồ (histogram) có thể áp dụng vào
trong các bước nào của quá trình chuẩn bị
dữ liệu ?
 Làm sạch DL : khử nhiễu; Mã hóa DL : rời
rạc hóa DL; Rút gọn DL . 8

4
ÔN TẬP
Chương 3 :
9. Phát biểu bài toán khai thác tập phổ biến,
khai thác luật kết hợp?
Bài toán khai thác tập phổ biến là bài
toán tìm tất cả các tập các hạng mục S
(hay tập phổ biến S) có độ phổ biến thỏa
mãn độ phổ biến tối thiểu minsupp:
supp(S)  minsupp
Bài toán khai thác LKH là bài toán tìm tất cả
các luật dạng X  Y (X, Y  I và X Y = {})
thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X  Y )  minsupp
9
conf (X  Y )  minconf

ÔN TẬP
Chương 3 :
10. Trình bày các tính chất của tập phổ biến?
Tập phổ biến tối đại, tập phổ biến đóng.
Tất cả các tập con của tập phổ biến đều là
tập phổ biến .
Nếu tập con không phổ biến thì tập bao nó
(tập cha) không phổ biến.
Tập phổ biến tối đại : là tập phổ biến &
không tồn tại tập nào bao nó là phổ biến
Tập phổ biến đóng: là tập phổ biến & không
tồn tại tập nào bao nó có cùng độ phổ biến
như nó.
10

5
ÔN TẬP
Chương 3 :
11. Trình bày qui trình tìm luật kết hợp? Hãy đưa ra cải
tiến cho phương pháp tạo luật kết hợp từ tập phổ
biến (trong Bước 2 của qui trình)? Giải thích vì sao
nó hiệu quả hơn. Cho ví dụ minh họa.
B1 : Tìm tất cả các tập phổ biến (theo ngưỡng minsupp)
B2 : Tạo ra các luật từ các tập phổ biến (đã tìm thấy từ bước 1)
Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng
của S. Đối với mỗi tập con khác rỗng A của S,
o Luật A  (S - A) là luật kết hợp cần tìm nếu :
 conf (A  (S - A)) = supp(S) / supp(A)  minconf
 Nghiên cứu cải tiến B2 trong tài liệu tham khảo
 P.-N. Tan, M. Steinbach, V. Kumar, Chương 6
- Introduction to Data Mining
http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf, pp.23
11

ÔN TẬP
Chương 3 :
12. Thuật toán Apriori? Hãy trình bày một
phương pháp cải tiến thuật toán
Apriori.
 Lưu ý : Chỉ tạo các ứng viên Ck+1 từ
tập phổ biến Lk theo đúng nguyên tắc
kết ứng viên và cần thực hiện bước
loại bỏ các ứng viên chứa ít nhất một
tập con không phổ biến.
 Phương pháp cải tiến : nghiên cứu
một trong các tài liệu tham khảo
12
trong bài giảng.

6
ÔN TẬP
Chương 3 :
13. Thuật toán Fp_growth? So sánh với
Apriori.
 Lưu ý: Trước khi tạo cây Fp cũng như
cây Fp-điều kiện, phải sắp xếp các
giao dịch/cơ sở mẫu điều kiện theo
thứ tự của danh sách f-list/các tập
một hạng mục phổ biến theo chiều
giảm dần.
14. Độ đo Interest xác định tính lý thú của
luật P( X ,Y )
Interest( X  Y )  13
P( X ) * P(Y )

ÔN TẬP
Chương 4 :
15. Phát biểu bài toán phân lớp ? Cho ví dụ ứng
dụng trong thực tế .
Cho CSDL D={t1,t2,…,tn} và tập các lớp C={C1,…,Cm},
phân lớp là bài toán xác định ánh xạ f : DC sao cho
mỗi ti được gán vào một lớp.
http://www.kdnuggets.com/software/classif
ication.html
16. Phương pháp phân lớp dựa trên cây quyết
định?
 Áp dụng cho DL gồm các thuộc tính có dạng
phi số.
 Dựa trên độ đồng nhất của DL để phân chia:
IG, Gini index.
14

7
ÔN TẬP
Chương 4 :
17. Phương pháp phân lớp dựa trên luật?
 Xây dựng luật trực tiếp/gián tiếp từ DL: Thuật toán
ILA/ rút luật từ cây quyết định.
 Thuật toán ILA : chú ý thứ tự các tổ hợp thuộc tính
trong danh sách các thuộc tính kết hợp.
18. Phương pháp phân lớp dựa trên mô hình
xác suất:Naïve Bayes?
 Áp dụng cho DL gồm các thuộc tính có dạng phi số và
cả dạng số/giá trị liên tục.
 Nên sử dụng phương pháp làm trơn (Laplace) khi
ước lượng các xác suất.
15

ÔN TẬP
Chương 4 :
19. Phương pháp phân lớp dựa trên thể
hiện: thuật toán k-NN? So sánh các
phương pháp phân lớp.
 Gán mẫu mới vào lớp có số mẫu chiếm đa
số trong k mẫu láng giềng gần nó nhất
(hoặc mẫu mới nhận giá trị trung bình của k
mẫu).
 Nên chuẩn hóa giá trị thuộc tính trước khi
thực hiện thuật toán k-NN.
vi  min vi
ai 
max vi  min vi 16

8
ÔN TẬP
Chương 5 :
20. Phát biểu bài toán gom nhóm ? Cho ví
dụ ứng dụng trong thực tế.
Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom nhóm
là bài toán xác định ánh xạ f : D {1,…,k} sao cho
mỗi ti được gán vào một nhóm (lớp) Kj,
1jk.
http://www.kdnuggets.com/software/clus
tering.html
21. Phương pháp gom nhóm theo kiểu
phân hoạch: Thuật toán k-mean?
 Độ phức tạp của thuật toán phụ thuộc vào
việc lựa chọn k trung tâm cụm đầu tiên.
 Sử dụng độ đo Euclide để tính khoảng cách
giữa các đối tượng. 17

ÔN TẬP
Chương 5 :
22. Phương pháp gom nhóm theo kiểu
phân cấp : thuật toán Agnes?
 Lưu ý : phân biệt giữa 2 cách tính khoảng
cách giữa 2 nhóm theo Single link và
Complete link.
 Khi vẽ sơ đồ hình cây: cần thể hiện rõ thứ
tự gom nhóm cũng như vị trí trên trục Y –
khoảng cách mà các nhóm được gom lại
với nhau.
18

9
ÔN TẬP
Chương 6 :
23. Thế nào là Text mining? Các lĩnh vực liên
quan? Các nhiệm vụ của text mining ?Trình
bày ví dụ ứng dụng thực tế .
– Một nhánh của khai thác dữ liệu. Mục đích :
tìm kiếm và rút trích tri thức từ tài liệu văn
bản
– Các lĩnh vực liên quan: Xử lý ngôn ngữ tự
nhiên, Rút trích thông tin, Truy vấn thông
tin, Web mining, Data mining chuẩn.
– Phân loại văn bản, gom nhóm tài liệu, xây
dựng tóm tắt, dự đoán, theo vết xu
hướng,…
– http://www.kdnuggets.com/software/text
.html
19

ÔN TẬP
Chương 6 :
24. Thế nào là Web mining? Phân loại web
mining ? Trình bày ví dụ ứng dụng thực
tế.
 Web mining = Data mining ( áp dụng cho tài
liệu Web và các dịch vụ) + Web technology.
 Web Content Mining : Tìm tri thức từ nội dung
Web ( nhiều loại dữ liệu như tài liệu, hình ảnh,
audio, video, hyperlinks, …)
 Web Structure Mining : Tìm các mô hình nằm
dưới các cấu trúc liên kết của Web
 Web Usage Mining : Tìm các tri thức từ hành vi
và quá trình sử dụng web của người dùng
 http://www.kdnuggets.com/solutions/web-
mining.html
20

10
Để trở thành chuyên gia
trong lĩnh vực Khai thác
Dữ liệu, các em cần
 Nghiên cứu nhiều hơn
 Đọc nhiều hơn

21

22

11

You might also like