Professional Documents
Culture Documents
Đáp Án KTDL
Đáp Án KTDL
1) ĐỀ CK CLC .................................................................................................................................................. 2
Câu 1 ......................................................................................................................................................... 2
Câu 2: Cho CSDL sau:................................................................................................................................. 6
Câu 3 ....................................................................................................................................................... 14
2) BÀI TẬP ÔN KTDL ..................................................................................................................................... 17
Câu 1 ....................................................................................................................................................... 17
Câu 2 ....................................................................................................................................................... 20
Câu 3: ...................................................................................................................................................... 23
Câu 4: ...................................................................................................................................................... 27
Câu 5: ...................................................................................................................................................... 30
Câu 6: Cho CSDL sau : .............................................................................................................................. 36
Câu 7: ...................................................................................................................................................... 38
Câu 8: ...................................................................................................................................................... 41
Câu 9: ...................................................................................................................................................... 42
Câu 10: .................................................................................................................................................... 44
1) ĐỀ CK CLC
Câu 1
Câu 1:
Transaction là: 100->900 ghi gọn lại thành 1->9, vô thi không ghi như v
Item TIDSET
A 12345679
B 2357
C 12345789
D 2346789
E 14678
F 59
G 18
H 26
zxCây IT-tree là Eclat
a)
b) Charm
z`
Ax12345679 ≠
Cx12345789 => Thêm AC
ACx1234579 ≠ Dx2346789 => Thêm ACD
ACDx23479 ≠ Ex14678 => Thêm ACDE (loại vì < minsup)
Ax12345679 ≠ Dx2346789 => Thêm AD
ADx234679 ≠ Ex14678 => Thêm ADE (loại vì < minsup)
Cx12345789 ≠ Dx2346789 => Thêm CD
CDx234789 ≠ Ex14678 => Thêm CDE (loại vì < minsup)
Dx2346789 ≠ Ex14678 => Thêm DE (loài vì < minsup)
d)
S: AC
S: AD
S: CD
S: ACD
AD->C: Sup(ACD)/Sup(AD) = 5/6=83.3% > 80% (nhận) ➔ Luật kết hợp: AD→(ACD-C)
CD->A: Sup(ACD)/Sup(CD) = 5/6=83.3% > 80% (nhận) ➔ Luật kết hợp: CD→(ACD-A)
a. Sử dụng độ đo Informatic Gain tìm các luật phân lớp với thuộc tính quyết định là: Chơi Tennis?
b. Cho biết nhãn của mẫu 11-15?
c. So sánh kết quả của câu b) khi sử dụng kNN với k=3 hoặc Nave Bayes để dự đoán lớp của các
mẫu: 11-15?
a. Để tìm các luật phân lớp với thuộc tính quyết định là "Chơi Tennis?", chúng ta sử dụng độ đo
Informatic Gain cho các thuộc tính còn lại trong bảng dữ liệu.
3 3 7 7
- 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = − 10 log2 10 − 10 log2 10 = 0,8813
Quang cảnh Đi Không đi Entropy
Nắng 1 2 0,9183
Âm u 3 0 0
Mưa 1 3 0,8113
3 4
- 𝐴𝐸𝑄𝑢𝑎𝑛𝑔 𝑐ả𝑛ℎ = . 0,9183 + 10 . 0,8113 = 0,6811
10
Quang cảnh
Nắng Mưa
Âm u
Đi
b. Dựa vào các luật phân lớp đã tìm được, ta có thể dự đoán kết quả "Chơi Tennis?" của ngày 11-15 như
sau:
c.
Dự đoán X11:
X11 gần 3 điểm nhất là: X1(k đi), X2(đi), X8(đi) => X11 đi
Dự đoán X12:
Chọn k = 3:
Dự đoán X13:
Chọn k = 3:
Dự đoán X14:
Chọn k = 3:
X14 gần 3 điểm nhất là: X1(k đi), X2(đi), X6(đi) => X14 đi
Dự đoán X14: gần 3 điểm nhất là: X2, X4, X9 => X14 đi
Chọn k = 3:
-> đi
Ta có:
SUy ra:
P(X11|C đi)* P(Cđi) = 0.00125*0.7 = 0.0008 < P(X11|C kđi)* P(C kđi) = 0.049*0.3 = 0.0147
Ta có:
SUy ra:
P(X12|C đi)* P(Cđi) = 0.005*0.7 = 0.0035 < P(X12|C kđi)* P(C kđi) = 0.024*0.3 = 0.0072
SUy ra:
P(X13|C đi)* P(Cđi) = 0.011*0.7 = 0.0035 > P(X13|C kđi)* P(C kđi) = 0*0.3 = 0.0072
Vậy X13 đi
SUy ra:
P(X14|C đi)* P(Cđi) = 0.03*0.7 = 0.021 > P(X14|C kđi)* P(C kđi) = 0*0.3 = 0.0072
Vậy X14 đi
SUy ra:
P(X15|C đi)* P(Cđi) = 0.011*0.7 = 0.0077 > P(X15|C kđi)* P(C kđi) = 0.024*0.3 = 0.0072
Vậy X15 đi
Câu 3
Đề không cho tâm, hay cho số cụm -> ta tự chọn số cụm là 4, với các tâm ban của C1,C2,C3,C4 đầu là A1,
A3, A5, A7.
1 2 3 4 5 6 7 8
C1(2,10) 0 5 8.5 3.6 7.2 8.1 8.1 2.23
C2(8,4) 8.5 6.1 0 5 1.4 2 7.3 6.4
C3(7,5) 7.1 5 1.4 3.6 0 1.41 6.7 5
C4(1,2) 8.1 3.16 7.3 7.2 6.7 5.38 0 7.61
1 2 3 4 5 6 7 8
C1(2,10) 1 0 0 1 0 0 0 1
C2(8,4) 0 0 1 0 0 0 0 0
C3(7,5) 0 0 0 0 1 1 0 0
C4(1,2) 0 1 0 0 0 0 1 0
Cụm C2: A3
C2 = (Xa3, Ya3) = (8 , 4)
Bây giờ ta xét lại các điểm thuộc 4 cụm với tọa độ tâm mới
(bảng kc)
1 2 3 4 5 6 7 8
C1(3.6,9) 1 0 0 1 0 0 0 1
C2(8,4) 0 0 1 0 0 0 0 0
C3(6.5,4.5) 0 0 0 0 1 1 0 0
C4(1.5,3.5) 0 1 0 0 0 0 1 0
Ta thấy các điểm không có sự thay đổi về cụm. Vì vậy ta dừng và không tiếp tục phân cụm.
Vì vậy, ta hoàn tất việc phân cụm 8 điểm trên như sau:
Cụm C2: A3
a)
TID A B C D E F G H I K M P
10 A B C D H K M
20 D E G H I P
30 B C D G H K
40 A B C E I P
50 B D F H K M
C1 sup_count support
A 2 0.4
B 4 0.8
C 3 0.6
D 4 0.8
E 2 0.4
F 1 0.2
G 2 0.4 L1 sup conf
H 4 0.8 B 4 0.8
I 2 0.4 C 3 0.6
K 3 0.6 D 4 0.8
M 2 0.4 H 4 0.8
P 2 0.4 -> K 3 0.6
C2 sup_count support
BC 3 0.6
BD 3 0.6
BH 3 0.6 L2 sup conf
BK 3 0.6 BC 3 0.6
CD 2 0.4 BD 3 0.6
CH 2 0.4 BH 3 0.6
CK 2 0.4 BK 3 0.6
DH 4 0.8 DH 4 0.8
DK 3 0.6 DK 3 0.6
HK 3 0.6 -> HK 3 0.6
C4 L4
BDHK 3 0.6 -> BDHK 3 0.6
Vậy tập phổ biến, phổ biến đóng và tối đại là:
L sup conf Đóng Tối đại
B 4 0.8 1
C 3 0.6
D 4 0.8
H 4 0.8
K 3 0.6
BC 3 0.6 1 1
BD 3 0.6
BH 3 0.6
BK 3 0.6
DH 4 0.8 1
DK 3 0.6
HK 3 0.6
BDH 3 0.6
BDK 3 0.6
BHK 3 0.6
DHK 3 0.6
BDHK 3 0.6 1 1
b) item1 & item 2 -> item 3 & item 4 ( Xét tập phổ biến có 4 phần tử)
BDHK
sup_count conf
BD - HK 3 1.00
HK - BD 3 1.00
BH - DK 3 1.00
DK - BH 3 1.00
BK - DH 3 1.00
DH - BK 3 0.75 loại
D -> item (vế phải có một hạng mục khác với hạng mục D)
sup_count conf
D => B 3 0.75 loại
D => H 4 1.00 Nhận
D => K 3 0.75 loại
Câu 2
* Single Link ( Nôm na là lấy giá trị nhỏ nhất của 2 nhóm khi gom cụm )
Min = P2 P3 0.06
XXX P1 P2 P3 P4 P5 P6 P7
P1 0
P2 P3 0.23 0
P4 0.56 0.59 0
P5 0.17 0.28 0.44 0
P6 0.4 0.24 0.48 0.37 0
P7 0.14 0.22 0.46 0.09 0.31 0
( Nhóm 2 cái có khoản cách nhỏ nhất, sau đó lấy khoảng cách nhỏ nhất để đại diện )
Min = P5 P7 0.09
XXX P1 P2 P3 P4 P5 P7 P6
P1 0
P2 P3 0.23 0
P4 0.56 0.59 0
P5 P7 0.14 0.22 0.44 0
P6 0.4 0.24 0.48 0.31 0
MIN = 0.14 P1 P5 P7
XXX P1 P5 P7 P2 P3 P4 P6
P1 P5 P7 0
P2 P3 0.22 0
P4 0.44 0.59 0
P6 0.31 0.24 0.48 0
XXX P12357 P4 P6
P12357 0
P4 0.44 0
P6 0.24 0.48 0
* chú ý: xa nhất là khoảng cách mới giữa nhóm vừa lập với các điểm khác, chứ gom nhóm lại với nhau
vẫn lấy MIN
COMPLETE LINK
Min = P2 P3 0.06
XXX P1 P2 P3 P4 P5 P6 P7
P1 0
P2 P3 0.27 0
P4 0.56 0.75 0
P5 0.17 0.33 0.44 0
P6 0.4 0.25 0.48 0.37 0
P7 0.14 0.26 0.46 0.09 0.31 0
MIN = 0.17 P1 P5 P7
XXX P1 P5 P7 P2 P3 P4 P6
P1 P5 P7 0
P2 P3 0.33 0
P4 0.56 0.75 0
P6 0.4 0.24 0.48 0
MIN = 0.24 P2 P3 P6
XX P1 P5 P7 P2 P3 P6 P4
P1 P5 P7 0
P2 P3 P6 0.4 0
P4 0.56 0.75 0
XX 123567 4
123567 0
4 0.75 0
Entropy tổng
* ĐỂ LÀM TIẾP THÌ BỎ TRƯỜNG HỢP MÂY ÍT RA KHỎI BẢNG RỒI TÍNH LẠI ENTROPY
vẽ nháp cho dễ nhìn
* Tính entropy mới (
Xét áp suât
Xét Gió
Chỉ còn cột cuối cùng, ta thấy áp suất cao thì mưa, thấp thì không mưa, cây quyết định:
Câu 4:
a.
TID ITEM
A 10, 40, 50
B 30
C 20, 30, 40, 50
D 10, 30, 40, 50
E 20, 40
F 30, 40, 50
G 10, 40
H 10, 50
I 30, 40, 50
C1 Support
A 3
B 1
C 4
D 4
E 2
F 3
G 2
H 2
I 3
F1 Support
A 3
C2 Support C 4
A,C 2 D 4
A,D 3 F 3
A,F 2 I 3
A,I 2
C,D 3 F2 Support
C,F 3 A,D 3
C,I 3 C,F 3
D,F 3 C,I 3
D,I 3 D,F 3
F,I 3 D,I 3
F,I 3
C3 Support F3 Support
A, D, F 2 C, F, I 3
A, D, I 2 C, D, F 3
C, F, I 3 C, D, I 3
C, D, F 3 D, F, I 3
C, D, I 3
D, F, I 3
C4 Support F4 Support
C, D, F, I 3 C, D, F, I 3
Như vậy có tất cả 16 tập hạng mục phổ biến thỏa minsup = 60%
b. Tập phổ biến: A, C, D, F, I, AD, CF, CI, DF, DI, FI, CFI, CDF, CDI, DFI, CDFI
Minconf = 80%
S: AD
A->D: sup(AD)/Sup(A) = 100% > 80% (nhận) ->Luật kết hợp: A->(AD-D)
D->: sup(AD)/Sup(D) = 75% < 80% (loại)
S: CF
S: CI
S: DF
S: DI
S: FI
S: CFI
S: CDF
S: CDI
S: DFI
S: CDFI
Câu 5:
Cho CSDL sau :
Bài làm:
a. Chia bảng CSDL với Kết quả là thuộc tính phân lớp thành 2 bảng:
Ví dụ tại thuộc tính Mây (cột Mây) có nhãn Nhiều ở cả Bảng 1 và 2 nên cho nó là 0. Thuộc tính Ít chỉ có
tại Bảng 1 nên đếm số lần có tại Bảng 1
Ta được:
Chọn {Thấp,Nam}
Dòng 5 được đánh dấu. Áp suất = “Thấp” và Gió = “Nam” →Không mưa
{Mây}: Nhiều: 0
Chọn {Nhiều, Cao}:2 (Chọn Nhiều, Bắc cũng được vì nó bằng nhau)
Đánh dấu dòng 2,8. Luật: Mây= “Nhiều” và Áp suất= “Cao” thì kết quả: Mưa
{Mây,Gió}: {Nhiều,Bắc}: 1
Ta được luật: Mây= “Nhiều” và Gió= “Bắc” thì kết quả: Mưa
Vậy
Đối tượng Mây Áp suất Gió Kết quả
9 Ít Trung bình Bắc Mưa/Không mưa
10 Ít Thấp Nam Không mưa
11 Nhiều Trung bình Nam Mưa
Vậy ta được:
Sử dụng thuật toán Naïve Bayes để xác định lớp cho mẫu mới sau:
Bài làm:
Không mưa
Mưa
Câu 7:
* Hết sức cẩn thận giữa vị trí lớp dự đoán và lớp thực sự, vị trí chính xác như sau
vì vậy ma trận sai số của dữ liệu trên phải chuyển thành như này
Thực sự
Lớp Mua không mua
Dự đoán mua 8986 1358
không mua 1009 2547
Thực sự
Lớp Mua không mua
Dự đoán mua TP FP
không mua FN TN
* Nhắc lại:
TP (True Positive): Tổng số trường hợp dự báo khớp mẫu dương tính.
FP (False Positive): Tổng số trường hợp dự báo các quan sát thuộc nhãn âm tính thành dương tính.
FN (False Negative): Tổng số trường hợp dự báo các quan sát thuộc nhãn dương tính thành âm tính.
́ Tính:
Accuracy (độ chính xác): Accuracy đo lường tỷ lệ dự đoán chính xác trên tổng số dự đoán. Accuracy = (TP
+ TN) / (TP + TN + FP + FN)
Error rate (tỷ lệ lỗi): Error rate đo lường tỷ lệ dự đoán sai trên tổng số dự đoán. Error rate = (FP + FN) /
(TP + TN + FP + FN)
Sensitivity (độ nhạy): Sensitivity đo lường khả năng phát hiện đúng các trường hợp "mua" (positive).
Sensitivity = TP / (TP + FN)
Specificity (độ đặc hiệu): Specificity đo lường khả năng phát hiện đúng các trường hợp "không mua"
(negative). Specificity = TN / (TN + FP)
Precision (độ chính xác dự đoán): Precision đo lường tỷ lệ dự đoán chính xác các trường hợp "mua"
(positive) trên tổng số dự đoán "mua". Precision = TP / (TP + FP)
Confusion Matrix
8986 1009
1358 2547
P1(3,12), P2(9,13), P3(10,11), P4(9,8), P5(6,10), P6(3,9), P7(7,7), P8(5,4), P9(8,4), P10(6,12), P11(8,6)
→ P1: Xanh, P2: Xanh, P5: Đỏ là 3 điểm gần nhất với P10. Vậy, theo K-NN P10 là nhãn xanh.
→ P4: Xanh, P7: Đỏ, P9: Xanh là 3 điểm gần nhất với P11. Vậy, theo K-NN P11 là nhãn xanh.
Câu 9:
a. Lưu ý: Nếu dữ liệu chưa được sắp xếp thì hãy sắp xếp lại
Cách 1: Sử dụng giá trị trung bình: Tính giá trị trung bình của mỗi giỏ và thay thế
(Theo như slide trên mạng thì sẽ làm tròn)
(5+10+11+13) / 4 = 9.75
(15+35+50+55) / 4 = 38.75
(72+92+204+215) / 4 = 145.75
=> Sau khi làm trơn
[10, 10, 10, 10]
[39, 39, 39, 39]
[146, 146, 146, 146]
Cách 2: Sử dụng giá trị trung vị: Tính giá trị trung vị của mỗi giỏ và thay thế
Tương tự như cách 1 chỉ khác là sử dụng giá trị trung vị
(10+11) / 2 = 10.5
(35+50) / 2 = 42.5
(92+204) / 2 = 148
Cách 3: Sử dụng biên giỏ (Bin Boundaries): Các giá trị ở giữa gần biên nào hơn thì đổi
thành biên đó
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]
Câu 10:
1 2 3 4 5 6 7 8
1 0
2 5 0
3 8.5 6.1 0
4 3.6 4.2 5 0
5 7.1 5 1.4 3.6 0
6 7.2 4.1 2 4.1 1.41 0
7 8.1 3.16 7.3 7.2 6.7 5.38 0
8 2.23 4.47 6.4 1.4 5 5.38 7.61 0
Eps = 2, Min =2
A1: x
A2: x
A3: A5, A6
A4: A8
A5: A6
A6: A3, A5
A7: x
A8: A4