Đáp Án KTDL

Contents
1) ĐỀ CK CLC .................................................................................................................................................. 2
Câu 1 ......................................................................................................................................................... 2
Câu 2: Cho CSDL sau:................................................................................................................................. 6
Câu 3 ....................................................................................................................................................... 14
2) BÀI TẬP ÔN KTDL ..................................................................................................................................... 17
Câu 1 ....................................................................................................................................................... 17
Câu 2 ....................................................................................................................................................... 20
Câu 3: ...................................................................................................................................................... 23
Câu 4: ...................................................................................................................................................... 27
Câu 5: ...................................................................................................................................................... 30
Câu 6: Cho CSDL sau : .............................................................................................................................. 36
Câu 7: ...................................................................................................................................................... 38
Câu 8: ...................................................................................................................................................... 41
Câu 9: ...................................................................................................................................................... 42
Câu 10: .................................................................................................................................................... 44
1) ĐỀ CK CLC
Câu 1
Câu 1:
Minsup = 50% → mincount >=5 thì là tập phổ biến
Transaction là: 100->900 ghi gọn lại thành 1->9, vô thi không ghi như v
Item TIDSET
A 12345679
B 2357
C 12345789
D 2346789
E 14678
F 59
G 18
H 26
zxCây IT-tree là Eclat
a)
Nghĩa là: những thằng bao nó thì phải nhỏ hơn nó
→ Phổ biến đóng:
Nghĩa là: Không có thằng nào bao nó trong cây→phải là lá.

→ Phổ biến tối đại:
b) Charm
z`
Ax12345679 ≠
Cx12345789 => Thêm AC
ACx1234579 ≠ Dx2346789 => Thêm ACD
ACDx23479 ≠ Ex14678 => Thêm ACDE (loại vì < minsup)
Ax12345679 ≠ Dx2346789 => Thêm AD
ADx234679 ≠ Ex14678 => Thêm ADE (loại vì < minsup)
Cx12345789 ≠ Dx2346789 => Thêm CD
CDx234789 ≠ Ex14678 => Thêm CDE (loại vì < minsup)
Dx2346789 ≠ Ex14678 => Thêm DE (loài vì < minsup)
d)
Tập phổ biến: A, C, D, E, AC, AD, CD, ACD
S: AC
A -> C: Sup(AC)/Sup(A) = 7/8=87.5% >80% (nhận) ➔ Luật kết hợp: A→(AC-C)
C->A: Sup(AC)/Sup(C) = 7/8=87.5% >80% (nhận) ➔ Luật kết hợp: C→(AC-A)
S: AD
A->D: Sup(AD)/Sup(A) = 6/8=75% <80% (LOẠI)
D->A: Sup(AD)/Sup(D) = 6/7=85.7% >80% (nhận) ➔ Luật kết hợp: D→(AD-A)
S: CD
C->D: Sup(CD)/Sup(C) = 6/8=75% < 80% (LOẠI)
D->C: Sup(CD)/Sup(D) = 6/7=85.7% >80% (nhận) ➔ Luật kết hợp: D→(CD-C)
S: ACD
A->CD: Sup(ACD)/Sup(A) = 5/8=62.5% < 80% (LOẠI)
C->AD: Sup(ACD)/Sup(A) = 5/8=62.5% < 80% (LOẠI)
D->AC: Sup(ACD)/Sup(D) = 5/7=71.4% < 80% (LOẠI)

AC->D: Sup(ACD)/Sup(AC) = 5/7=71.42% < 80% (LOẠI)
AD->C: Sup(ACD)/Sup(AD) = 5/6=83.3% > 80% (nhận) ➔ Luật kết hợp: AD→(ACD-C)
CD->A: Sup(ACD)/Sup(CD) = 5/6=83.3% > 80% (nhận) ➔ Luật kết hợp: CD→(ACD-A)
Câu 2: Cho CSDL sau:

Ngày Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Tennis?
1 Nắng Nóng Cao Thấp Không đi
2 Âm u Nóng Cao Thấp Đi
3 Mưa Lạnh TB Cao Không đi
4 Âm u TB Cao Thấp Đi
5 Mưa TB Cao Thấp Đi
6 Mưa Lạnh TB Thấp Đi
7 Nắng TB Cao Thấp Không đi
8 Nắng Lạnh TB Thấp Đi
9 Âm u Lạnh TB Cao Đi
10 Mưa TB TB Thấp Đi
11 Nắng Nóng Cao Cao
12 Nắng TB TB Cao
13 Âm u TB Cao Cao
14 Âm u Nóng TB Thấp
15 Mưa TB Cao Cao
a. Sử dụng độ đo Informatic Gain tìm các luật phân lớp với thuộc tính quyết định là: Chơi Tennis?
b. Cho biết nhãn của mẫu 11-15?
c. So sánh kết quả của câu b) khi sử dụng kNN với k=3 hoặc Nave Bayes để dự đoán lớp của các
mẫu: 11-15?
a. Để tìm các luật phân lớp với thuộc tính quyết định là "Chơi Tennis?", chúng ta sử dụng độ đo
Informatic Gain cho các thuộc tính còn lại trong bảng dữ liệu.
3 3 7 7
- 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = − 10 log2 10 − 10 log2 10 = 0,8813
Quang cảnh Đi Không đi Entropy
Nắng 1 2 0,9183
Âm u 3 0 0
Mưa 1 3 0,8113
3 4
- 𝐴𝐸𝑄𝑢𝑎𝑛𝑔 𝑐ả𝑛ℎ = . 0,9183 + 10 . 0,8113 = 0,6811
10
=> IG Quang cảnh = 0,8813 – 0,6811 = 0,2002

Nhiệt độ Đi Không đi Entropy
Nóng 1 1 1
Lạnh 3 1 0,8113
TB 3 1 0,8113
2 4 4
- 𝐴𝐸𝑁ℎ𝑖ệ𝑡 độ = . 1 + 10 . 0,8113 + 0,8113 = 0,849
10 10
=> IG Nhiệt độ = 0,8813 – 0,849 = 0,0323

Độ ẩm Đi Không đi Entropy
Cao 3 2 0,971
TB 4 1 0,7219
5 5
- 𝐴𝐸Độ ẩ𝑚 = 0,971 + 0,7219 = 0,8465
10 10
=> IG Độ ẩm = 0,8813 – 0,8465 = 0,0348

Gió Đi Không đi Entropy
Cao 1 1 1
Thấp 6 2 0,8113
2 8
- 𝐴𝐸𝐺𝑖ó = 1+ 0,8113 = 0,849
10 10
=> 𝐼𝐺𝐺𝑖ó = 0.8813 − 0.849 = 0.0323
 Vì 𝐼𝐺𝑄𝑢𝑎𝑛𝑔 𝑐ả𝑛ℎ lớn nhất nên tách tại Quang cảnh
Quang cảnh
Nắng Mưa
Âm u
Đi
- Tại Quang cảnh nắng có bảng con:

Nhiệt độ Độ ẩm Gió Chơi tennis
Nóng Cao Thấp Không đi
TB Cao Thấp Không đi
Lạnh TB Thấp Đi
E(Quang cảnh nắng) = 0,9183
Nóng 0 1 0
Lạnh 1 0 0
TB 0 1 0
=> IGQC.Nhiệt độ = 0,9183
Cao 2 0 0
TB 1 0 0
=> IGQC.Độ ẩm = 0,9183

Cao 0 0 0
Thấp 1 2 0,9183
=> IGQC.Gió = 0
SplitInformation(S, A) = - Σ ((|Sv| / |S|) * log2(|Sv| / |S|))
ì IGQC.Nhiệt độ = IGQC.Độ ẩm nên ta tính Split IG cho từng thành phần

* Splitinformation(Nhiệt độ) = -1/3log2(1/3) -1/3log2(1/3) -1/3log2(1/3) = 1.58
* Splitinformation(Độ ẩm) = -2/3log2(2/3) – 1/3log2(1/3) = 0.92
GainRatio(S, A) = InformationGain(S, A) / SplitInformation(S, A)
sau đó tính GainRatio(cái nào càng lớn thì chọn )

* GainRatio(QC,Nhiệt độ) = 0.9183/1.58 = 0.58
* GainRatio(QC,Độ ẩm) = 0.9183/0.92 = 0.99 -> Ta tách tiếp theo tại độ ẩm, cây như sau
- Tại độ Quang cảnh là Mưa có bảng con

Nhiệt độ Độ ẩm Gió Chơi tennis
Lạnh TB Cao Không đi
TB Cao Thấp Đi
Lạnh TB Thấp Đi
TB TB Thấp Đi
E(Quang cảnh mưa) = 0.8113
Nóng 0 0 0
Lạnh 1 1 1
TB 2 0 0
=> IGQC.Nhiệt độ = 0,8113 – 0,5 = 0,3113
Cao 1 0 0
TB 2 1 0,9183
=> IGQC.Độ ẩm = 0.8113 – ¾ .0,9183 = 0,1226

Cao 0 1 0
Thấp 3 0 0
=> IGQC.Gió = 0.8113
Þ 𝐼𝐺𝑄𝐶.𝐺𝑖ó lớn nhất nên chọn Gió
b. Dựa vào các luật phân lớp đã tìm được, ta có thể dự đoán kết quả "Chơi Tennis?" của ngày 11-15 như
sau:
Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Tennis?

11 Nắng Nóng Cao Cao Không đi
12 Nắng TB TB Cao Đi
13 Âm u TB Cao Cao Đi
14 Âm u Nóng TB Thấp Đi
15 Mưa TB Cao Cao Không đi
c.
Sử dụng KNN (k=3)
Biểu diễn số hoá dữ liệu
Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Chơi Tennis?

ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp
h cao TB
1 1 1 1 1 Không đi
2 1 1 1 1 Đi
3 1 1 1 1 Không đi
4 1 1 1 1 Đi
5 1 1 1 1 Đi
6 1 1 1 1 Đi
7 1 1 1 1 Không đi
8 1 1 1 1 Đi
9 1 1 1 1 Đi
10 1 1 1 1 Đi
11 1 1 1 1
12 1 1 1 1
13 1 1 1 1
14 1 1 1 1
15 1 1 1 1
Dự đoán X11:
Khoảng cách euclid giữa X11 và mẫu dữ liệu là
Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Chơi Khoảng

ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp Tennis? cách
h cao TB
1 1 0 0 1 0 0 1 0 0 1 Không đi 1
2 0 1 0 1 0 0 1 0 0 1 Đi 1.4
3 0 0 1 0 0 1 0 1 1 0 Không đi 1.7
4 0 1 0 0 1 0 1 0 0 1 Đi 1
5 0 0 1 0 1 0 1 0 0 1 Đi 1
6 0 0 1 0 0 1 0 1 0 1 Đi 1
7 1 0 0 0 1 0 1 0 0 1 Không đi 1.4
8 1 0 0 0 0 1 0 1 0 1 Đi 1.7
9 0 1 0 0 0 1 0 1 1 0 Đi 1.4
10 0 0 1 0 1 0 0 1 0 1 Đi 2
Chọn k = 3:
X11 gần 3 điểm nhất là: X1(k đi), X2(đi), X8(đi) => X11 đi
Dự đoán X12:
Chọn k = 3:
Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách

h cao TB
1 1 1 1 1 căn(7
2 1 1 1 1 căn(10
3 1 1 1 1 căn(6
4 1 1 1 1 căn(10
5 1 1 1 1 căn(7
6 1 1 1 1 căn(8
7 1 1 1 1 căn(4
8 1 1 1 1 căn(5
9 1 1 1 1 căn(6
12 1 1 1 1
X12 => X12 đi
Dự đoán X13:
Chọn k = 3:

h cao TB
1 1 1 1 1 căn(8
2 1 1 1 1 căn(5
3 1 1 1 1 căn(8
4 1 1 1 1 căn(2
5 1 1 1 1 căn(5
6 1 1 1 1 căn(10
7 1 1 1 1 căn(5
8 1 1 1 1 căn(10
9 1 1 1 1 căn(5
13 1 1 1 1
X13 => X13 đi
Dự đoán X14:
Chọn k = 3:
X14 gần 3 điểm nhất là: X1(k đi), X2(đi), X6(đi) => X14 đi

h cao TB
1 1 1 1 1 căn(7
2 1 1 1 1 căn(2
3 1 1 1 1 căn(7
4 1 1 1 1 căn(5
5 1 1 1 1 căn(8
6 1 1 1 1 căn(6
7 1 1 1 1 căn(8
8 1 1 1 1 căn(6
9 1 1 1 1 căn(5
14 1 1 1 1
Dự đoán X14: gần 3 điểm nhất là: X2, X4, X9 => X14 đi
Chọn k = 3:

h cao TB
1 1 1 1 1 2.82
2 1 1 1 1 2.82
3 1 1 1 1 2.23
4 1 1 1 1 2
5 1 1 1 1 1.44
6 1 1 1 1 2.64
7 1 1 1 1 2.23
8 1 1 1 1 3.16
9 1 1 1 1 2.83
15 1 1 1 1
-> đi
Sử dụng Naïve Bayes
P(Cđi) = 7/10 = 0.7; P(C kđi) = 3/10 = 0.3
Xét X11: QC= nắng; NĐ = nóng; ĐÂ = cao; Gió = cao
P(QC = nắng|Cđi) = 1/7; P(QC = nắng|C kđi) = 2/3
P(NĐ = nóng |Cđi) = 1/7; P(NĐ = nóng |C kđi) = 1/3
P(ĐÂ = cao |Cđi) = 3/7; P(ĐÂ = cao |C kđi) = 2/3
P(Gió = cao |Cđi) = 1/7; P(Gió = cao |C kđi) = 1/3
Ta có:
P(X11|C đi) = 1/7*1/7*3/7*1/7 = 0.00125
P(X11|C kđi) = 2/3*1/3*2/3*1/3 = 0.049
SUy ra:
P(X11|C đi)* P(Cđi) = 0.00125*0.7 = 0.0008 < P(X11|C kđi)* P(C kđi) = 0.049*0.3 = 0.0147
Vậy X11 không đi
Xét X12: QC= nắng; NĐ = TB; ĐÂ = TB; Gió = cao
P(QC = nắng|Cđi) = 1/7; P(QC = nắng|C kđi) = 2/3
P(NĐ = TB |Cđi) = 3/7; P(NĐ = TB|C kđi) = 1/3
P(ĐÂ = TB |Cđi) = 4/7; P(ĐÂ = TB|C kđi) = 1/3
P(Gió = cao |Cđi) = 1/7; P(Gió = cao |C kđi) = 1/3
Ta có:
P(X12|C đi) = 1/7*3/7*4/7*1/7 = 0.005
P(X12|C kđi) = 2/3*1/3*1/3*1/3 = 0.024
SUy ra:
P(X12|C đi)* P(Cđi) = 0.005*0.7 = 0.0035 < P(X12|C kđi)* P(C kđi) = 0.024*0.3 = 0.0072
Vậy X12 không đi

Xét X13: QC= âm u; NĐ = TB; ĐÂ = cao; Gió = cao
P(X13|C đi) = 3/7*3/7*3/7*1/7 = 0.011
P(X13|C kđi) = 0/3*1/3*1/3*1/3 = 0
SUy ra:
P(X13|C đi)* P(Cđi) = 0.011*0.7 = 0.0035 > P(X13|C kđi)* P(C kđi) = 0*0.3 = 0.0072
Vậy X13 đi
Xét X14: QC= âm u; NĐ = nóng; ĐÂ = TB; Gió = thấp
P(X14|C đi) = 3/7*1/7*4/7*6/7 = 0.03
P(X14|C kđi) = 0/3*1/3*1/3*2/3 = 0
SUy ra:
P(X14|C đi)* P(Cđi) = 0.03*0.7 = 0.021 > P(X14|C kđi)* P(C kđi) = 0*0.3 = 0.0072
Vậy X14 đi
Xét X15: QC= mưa; NĐ = TB; ĐÂ = cao; Gió = cao
P(X15|C đi) = 3/7*3/7*3/7*1/7 = 0.011
P(X15|C kđi) = 1/3*1/3*2/3*1/3 = 0.024
SUy ra:
P(X15|C đi)* P(Cđi) = 0.011*0.7 = 0.0077 > P(X15|C kđi)* P(C kđi) = 0.024*0.3 = 0.0072
Vậy X15 đi
Câu 3
Đề không cho tâm, hay cho số cụm -> ta tự chọn số cụm là 4, với các tâm ban của C1,C2,C3,C4 đầu là A1,
A3, A5, A7.
Ta có bảng khoảng các từ các điểm tới các tâm
1 2 3 4 5 6 7 8
C1(2,10) 0 5 8.5 3.6 7.2 8.1 8.1 2.23
C2(8,4) 8.5 6.1 0 5 1.4 2 7.3 6.4
C3(7,5) 7.1 5 1.4 3.6 0 1.41 6.7 5
C4(1,2) 8.1 3.16 7.3 7.2 6.7 5.38 0 7.61
Xét các điểm thuộc cụm (1: thuộc, 0: không thuộc)
1 2 3 4 5 6 7 8
C1(2,10) 1 0 0 1 0 0 0 1
C2(8,4) 0 0 1 0 0 0 0 0
C3(7,5) 0 0 0 0 1 1 0 0
C4(1,2) 0 1 0 0 0 0 1 0
Như vậy ta có:
Cụm C1: A1, A4, A8
Cụm C2: A3
Cụm C3: A5, A6
Cụm C4: A2, A7
Tính lại tâm mỗi cụm
C1 = ( (Xa1 + Xa4 +Xa8) / 3 , (Ya1 + Ya4 +Ya8) / 3) = (3.6 , 9)
C2 = (Xa3, Ya3) = (8 , 4)
C3 = ( (Xa5 + Xa6)/2, (Ya5 + Ya6) / 2) = (6.5 , 4.5)
C4 = ( (Xa2 + Xa7)/2, (Ya2 + Ya7) / 2) = (1.5, 3.5)
Bây giờ ta xét lại các điểm thuộc 4 cụm với tọa độ tâm mới
(bảng kc)
Xét các điểm thuộc cụm (1: thuộc, 0: không thuộc)
1 2 3 4 5 6 7 8
C1(3.6,9) 1 0 0 1 0 0 0 1
C2(8,4) 0 0 1 0 0 0 0 0
C3(6.5,4.5) 0 0 0 0 1 1 0 0
C4(1.5,3.5) 0 1 0 0 0 0 1 0
Ta thấy các điểm không có sự thay đổi về cụm. Vì vậy ta dừng và không tiếp tục phân cụm.
Vì vậy, ta hoàn tất việc phân cụm 8 điểm trên như sau:
Cụm C1: A1, A4, A8
Cụm C2: A3
Cụm C3: A5, A6
Cụm C4: A2, A7
Ảnh minh họa ( không cần làm )

2) BÀI TẬP ÔN KTDL
Câu 1
a)
TID A B C D E F G H I K M P
10 A B C D H K M
20 D E G H I P
30 B C D G H K
40 A B C E I P
50 B D F H K M
C1 sup_count support
A 2 0.4
B 4 0.8
C 3 0.6
D 4 0.8
E 2 0.4
F 1 0.2
G 2 0.4 L1 sup conf
H 4 0.8 B 4 0.8
I 2 0.4 C 3 0.6
K 3 0.6 D 4 0.8
M 2 0.4 H 4 0.8
P 2 0.4 -> K 3 0.6
C2 sup_count support
BC 3 0.6
BD 3 0.6
BH 3 0.6 L2 sup conf
BK 3 0.6 BC 3 0.6
CD 2 0.4 BD 3 0.6
CH 2 0.4 BH 3 0.6
CK 2 0.4 BK 3 0.6
DH 4 0.8 DH 4 0.8
DK 3 0.6 DK 3 0.6
HK 3 0.6 -> HK 3 0.6
Column1 Column2 Column3

C3 loai vi sup_count
BCD CD
BCH CH
BCK CK L3 sup conf
BDH 3 BDH 3 0.6
BDK 3 BDK 3 0.6
BHK 3 BHK 3 0.6
DHK 3 -> DHK 3 0.6
C4 L4
BDHK 3 0.6 -> BDHK 3 0.6
Vậy tập phổ biến, phổ biến đóng và tối đại là:
L sup conf Đóng Tối đại
B 4 0.8 1
C 3 0.6
D 4 0.8
H 4 0.8
K 3 0.6
BC 3 0.6 1 1
BD 3 0.6
BH 3 0.6
BK 3 0.6
DH 4 0.8 1
DK 3 0.6
HK 3 0.6
BDH 3 0.6
BDK 3 0.6
BHK 3 0.6
DHK 3 0.6
BDHK 3 0.6 1 1
b) item1 & item 2 -> item 3 & item 4 ( Xét tập phổ biến có 4 phần tử)
BDHK
sup_count conf
BD - HK 3 1.00
HK - BD 3 1.00
BH - DK 3 1.00
DK - BH 3 1.00
BK - DH 3 1.00
DH - BK 3 0.75 loại
D -> item (vế phải có một hạng mục khác với hạng mục D)
sup_count conf
D => B 3 0.75 loại
D => H 4 1.00 Nhận
D => K 3 0.75 loại
Câu 2
* Single Link ( Nôm na là lấy giá trị nhỏ nhất của 2 nhóm khi gom cụm )
Min = P2 P3 0.06
XXX P1 P2 P3 P4 P5 P6 P7
P1 0
P2 P3 0.23 0
P4 0.56 0.59 0
P5 0.17 0.28 0.44 0
P6 0.4 0.24 0.48 0.37 0
P7 0.14 0.22 0.46 0.09 0.31 0
( Nhóm 2 cái có khoản cách nhỏ nhất, sau đó lấy khoảng cách nhỏ nhất để đại diện )
Min = P5 P7 0.09
P1 0
P2 P3 0.23 0
P4 0.56 0.59 0
P5 P7 0.14 0.22 0.44 0
P6 0.4 0.24 0.48 0.31 0
MIN = 0.14 P1 P5 P7
P1 P5 P7 0
P2 P3 0.22 0
P4 0.44 0.59 0
P6 0.31 0.24 0.48 0
MIN = 0.22 P12357
XXX P12357 P4 P6
P12357 0
P4 0.44 0
P6 0.24 0.48 0
MIN = 0.24 P123 567
Column1 P123 567 P4

P123 567 0
P4 0.44 0
Sau đó mình vẽ lại hình như sau:

* COMPLETE LINK ( ngược với single link, thay vì lấy gần nhất nhất mình lấy xa nhất )
* chú ý: xa nhất là khoảng cách mới giữa nhóm vừa lập với các điểm khác, chứ gom nhóm lại với nhau
vẫn lấy MIN
COMPLETE LINK
Min = P2 P3 0.06
P1 0
P2 P3 0.27 0
P4 0.56 0.75 0
P5 0.17 0.33 0.44 0
P6 0.4 0.25 0.48 0.37 0
P7 0.14 0.26 0.46 0.09 0.31 0
MIN = 0.17 P1 P5 P7
P1 P5 P7 0
P2 P3 0.33 0
P4 0.56 0.75 0
P6 0.4 0.24 0.48 0
MIN = 0.24 P2 P3 P6
XX P1 P5 P7 P2 P3 P6 P4
P1 P5 P7 0
P2 P3 P6 0.4 0
P4 0.56 0.75 0
MIN = 0.4 123567
XX 123567 4
123567 0
4 0.75 0
Sau đó vẽ lại hình:

Câu 3:
* Dùng cái đơn giản nhất là entropy ( tổng 4 mưa, 4 không )
Entropy tổng
E = -4/8 log2(4/8) -4/8log2(4/8) = 1

Xét thuộc tính Mây
Mây Mưa không I

ít 0 3 0
nhiều 4 1 0.72
(tính I như tính entropy)
R(mây) = 3/8 * 0 + 5/8 * 0.72 = 0.45
-> IG(mây) = E – R(mây) = 1 – 0.45 = 0.55
Xét thuộc tính Áp suât
Áp suât Mưa không I

cao 2 2 1
tb 1 0 0
thấp 1 2 0.92
R(as) = 4/8*1 + 1/8*0 + 3/8*0.92 = 0.845
->IG(as) = E- R(as) = 1-0.845 = 0.155
Xét thuộc tính Gió:
Gió Mưa không I

bắc 3 2 0.97
nam 1 2 0.92
R(gió) = 5/8 * 0.97 + 3/8*0.92 = 0.951
->IG(gió) = E-R(gió) = 1 – 0.951 = 0.048
Chọn thuộc tính có IG lớn nhất nên chọn Mây
* ĐỂ LÀM TIẾP THÌ BỎ TRƯỜNG HỢP MÂY ÍT RA KHỎI BẢNG RỒI TÍNH LẠI ENTROPY
vẽ nháp cho dễ nhìn
* Tính entropy mới (
Entropy = -4/5log2(4/5)-1/5log2(1/5) = 0.72
Xét áp suât
Áp suât Mưa không I

cao 2 0 0
tb 1 0 0
thấp 1 1 1
R(as) = 2/5 * 0 + 1/5*0 + 2/5*1 = 0.4

->IG(as) = E-R(as) = 1 – 0.4 = 0.6
Xét Gió
Gió Mưa không I

bắc 3 0 0
nam 1 1 1
R(gió) = 3/5 * 0 + 2/5*1 = 0.4

->IG(gió) = E-R(gió) = 1 – 0.4 = 0.6
IG bằng nhau nên chọn gì cũng được, chọn gió

Bảng mới
Chỉ còn cột cuối cùng, ta thấy áp suất cao thì mưa, thấp thì không mưa, cây quyết định:
Câu 4:
a.
TID ITEM
A 10, 40, 50
B 30
C 20, 30, 40, 50
D 10, 30, 40, 50
E 20, 40
F 30, 40, 50
G 10, 40
H 10, 50
I 30, 40, 50
C1 Support
A 3
B 1
C 4
D 4
E 2
F 3
G 2
H 2
I 3
F1 Support
A 3
C2 Support C 4
A,C 2 D 4
A,D 3 F 3
A,F 2 I 3
A,I 2
C,D 3 F2 Support
C,F 3 A,D 3
C,I 3 C,F 3
D,F 3 C,I 3
D,I 3 D,F 3
F,I 3 D,I 3
F,I 3
C3 Support F3 Support
A, D, F 2 C, F, I 3
A, D, I 2 C, D, F 3
C, F, I 3 C, D, I 3
C, D, F 3 D, F, I 3
C, D, I 3
D, F, I 3
C4 Support F4 Support
C, D, F, I 3 C, D, F, I 3
Như vậy có tất cả 16 tập hạng mục phổ biến thỏa minsup = 60%
Tập phổ biến tối đại: CDFI

Tập bao phổ biến:
b. Tập phổ biến: A, C, D, F, I, AD, CF, CI, DF, DI, FI, CFI, CDF, CDI, DFI, CDFI
Minconf = 80%
S: AD
A->D: sup(AD)/Sup(A) = 100% > 80% (nhận) ->Luật kết hợp: A->(AD-D)
D->: sup(AD)/Sup(D) = 75% < 80% (loại)
S: CF
S: CI
S: DF
S: DI
S: FI
S: CFI
S: CDF
S: CDI
S: DFI
S: CDFI
Câu 5:
Cho CSDL sau :
Bài làm:
a. Chia bảng CSDL với Kết quả là thuộc tính phân lớp thành 2 bảng:
Bảng 1: Kết quả Không mưa:
Đối tượng Mây Áp suất Gió

1 Ít Cao Bắc
3 Ít Thấp Bắc
5 Nhiều Thấp Nam
7 Ít Cao Nam
Bảng 2: Kết quả mưa:

2 Nhiều Cao Nam
4 Nhiều Trung Bình Bắc
6 Nhiều Thấp Bắc
8 Nhiều Cao Bắc
Đầu tiên ta xét từng thuộc tính (Mây, Áp suất, Gió) của từng bảng.
Ví dụ tại thuộc tính Mây (cột Mây) có nhãn Nhiều ở cả Bảng 1 và 2 nên cho nó là 0. Thuộc tính Ít chỉ có
tại Bảng 1 nên đếm số lần có tại Bảng 1
Ta được:
Xét bảng con 1: nhóm Không mưa

Tổ hợp 1 trong 3 thuộc tính {Mây, Áp suất, Gió}
{Mây}: Ít: 3, Nhiều:0
{Áp suất}: Cao:0, Thấp:0, Trung bình:0
{Gió}: Nam:0, Bắc:0
→Chọn Ít:3(vì có chỉ số lớn nhất)
→Luật: Mây= “Ít” → Không mưa


2 Nhiều Cao Nam
4 Nhiều Trung Bình Bắc
8 Nhiều Cao Bắc
Tổ hợp 2 trong 3 thuộc tính {Mây, Áp suất,Gió}
{Mây,áp suất}: {Nhiều, Thấp}: 0
{Mây, Gió}: {Nhiều,Nam}:0
{Áp suất, Gió}: {Thấp,Nam}:1
Chọn {Thấp,Nam}
Dòng 5 được đánh dấu. Áp suất = “Thấp” và Gió = “Nam” →Không mưa
Tất cả các dòng đã đánh dấu nên ta đi tiếp bảng 2
Xét bảng con 2: nhóm mưa
Tổ hợp 1 trong 3 thuộc tính {Mây, Áp suất, Gió}
{Mây}: Nhiều: 0
{Áp suất}: Cao:0, Trung bình: 1, Thấp:0
{Gió}: Nam:0, Bắc:0
Chọn {Trung bình}
Dòng 4 được đánh dấu. Áp suất= “Trung bình” →Mưa

1 Ít Cao Bắc
3 Ít Thấp Bắc
7 Ít Cao Nam

2 Nhiều Cao Nam
8 Nhiều Cao Bắc
Tổ hợp 2 trong 3 thuộc tính
{Mây, Áp suất}: {Nhiều,Cao}: 2, {Nhiều, Thấp}:0
{Mây, Gió}: {Nhiều,Nam}:0, {Nhiều, Bắc}:2
{Áp suất, Gió}: {Cao,Nam}: 0, {Thấp,Bắc}:0, {Cao,Bắc}: 0
Chọn {Nhiều, Cao}:2 (Chọn Nhiều, Bắc cũng được vì nó bằng nhau)
Đánh dấu dòng 2,8. Luật: Mây= “Nhiều” và Áp suất= “Cao” thì kết quả: Mưa

1 Ít Cao Bắc
3 Ít Thấp Bắc
7 Ít Cao Nam

Chỉ tính lại những tổ hợp thuộc tính có mà chưa cho luật.
{Mây,Gió}: {Nhiều,Bắc}: 1
Ta được luật: Mây= “Nhiều” và Gió= “Bắc” thì kết quả: Mưa
Vậy tổng kết ta được các luật:
- Luật 1: Mây ít -> Không mưa

- Luật 2: Áp suất Thấp, Gió Nam -> Không mưa
- Luật 3: Áp suất Trung bình -> Mưa
- Luật 4: Mây nhiều, Áp suất cao -> Mưa
- Luật 5: Mây nhiều, Gió Bắc -> Mưa
Vậy
Đối tượng Mây Áp suất Gió Kết quả
9 Ít Trung bình Bắc Mưa/Không mưa
10 Ít Thấp Nam Không mưa
11 Nhiều Trung bình Nam Mưa
b. Sử dụng thuật toán Cây quyết định:
Mây Kết quả : Không mưa Kết quả: Mưa Entropy

Ít 3 0 0
Nhiều 1 4 0,7219
=> IG Mây = 1 – 0,6811 = 0,3189

Áp suất Không mưa Mưa Entropy
Cao 2 2 1
Thấp 2 1 0,9183
Trung bình 0 1 0
=> IG Áp suất = 1 – 0,8444 = 0,1556

Gió Kết quả : Không mưa Kết quả: Mưa Entropy
Bắc 2 3 0,971
Nam 2 1 0,9183
=> IG Gió= 1 – 0,9152 = 0,0848

Vì lớn nhất nên tách tại Mây
Tại Mây Nhiều có bảng con:
Áp suất Gió Kết quả

Cao Nam Mưa
Trung bình Bắc Mưa
Thấp Nam Không mưa
Thấp Bắc Mưa
Cao Bắc Mưa
Áp suất Không Mưa Mưa Entropy

Cao 0 2 0
Trung bình 0 1 0
Thấp 1 1 1
Gió Không Mưa Mưa Entropy

Nam 1 1 0
Bắc 0 3 0
Vì IG gió lớn nhất nên tách tại Gió

Tại Gió Nam ta có bảng con:
Áp suất Kết quả

Cao Mưa
Thấp Không mưa
Do đó ta được cây quyết định
Vậy ta được:
Đối tượng Mây Áp suất Gió Kết quả

9 Ít Trung bình Bắc Không mưa
10 Ít Thấp Nam Không mưa
11 Nhiều Trung bình Nam Không xác định
Câu 6: Cho CSDL sau :
Sử dụng thuật toán Naïve Bayes để xác định lớp cho mẫu mới sau:
Bài làm:
Công thức Naïve Bayes:

𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
𝑃(𝐶𝑖 |𝑋) =
𝑃(𝑥)
%𝑚ư𝑎
Đối tượng 9: X=ít, thấp, Nam ->{ →% nào lớn hơn thì Kết quả là cái đó
%𝑘ℎô𝑛𝑔 𝑚ư𝑎
- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(í𝑡|𝑀ư𝑎). 𝑃(𝑡ℎấ𝑝|𝑀ư𝑎). 𝑃(𝑁𝑎𝑚|𝑀ư𝑎)
0
Vì xác suất ít|Mưa là 4 nên nếu nhân 0 thì tất cả bằng 0
Do đó ta cần cộng thêm Laplace Correction cho cả bài
→Mẫu + Số lượng nhãn của thuộc tính(Ví dụ Mây là có 2 nhãn ít và nhiều)
→Tử + 1 (luôn cộng 1)
Khi đó:
0+1 1+1 1+1 1
𝑃(𝑋|𝑀ư𝑎) = . . =
4+2 4+3 4+2 63
- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(í𝑡|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑡ℎấ𝑝|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑁𝑎𝑚|𝑘ℎô𝑛𝑔 𝑚ư𝑎)
3+1 2+1 2+1 1
= . . =
4+2 4+3 4+2 7
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
= 𝑃(𝑋|𝑚ư𝑎). 𝑃(𝑚ư𝑎) + 𝑃(𝑋|𝑘𝑜 𝑚ư𝑎). 𝑃(𝑘𝑜 𝑚ư𝑎)
1 4+1 1 4+1 5
= . + . =
63 8 + 2 7 8 + 2 63
1 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) .
63 8
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 5 =0,1
𝑃(𝑋)
63
14
𝑃(𝑋 |𝑘𝑜 𝑚ư𝑎).𝑃(𝑘𝑜 𝑀ư𝑎) .
78
P(ko mưa|X)= = 5 = 0,9
𝑃(𝑋)
63
Kết quả X là không mưa
Tương tự:
Đối tượng 10: X=ít,trung bình,Bắc
- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(í𝑡|𝑀ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑀ư𝑎). 𝑃(𝐵ắ𝑐|𝑀ư𝑎)

0+1 1+1 3+1 2
P(X|Mưa)= . . =
4+2 4+3 4+2 63
- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(í𝑡|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝐵ắ𝑐|𝑘ℎô𝑛𝑔 𝑚ư𝑎)

3+1 0+1 2+1 1
= . . =
4 + 2 4 + 3 4 + 2 21
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
2 4+1 1 4+1 5
= . + . =
63 8 + 2 21 8 + 2 126
2 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) .
63 8
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 5 =0,4
𝑃(𝑋)
126
1 4
21 8
P(ko mưa|X)= = 5 = 0,6
𝑃(𝑋)
126
Không mưa
Đối tượng 11: X=nhiều, cao, Bắc
- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑀ư𝑎). 𝑃(𝑐𝑎𝑜|𝑀ư𝑎). 𝑃(𝐵ắ𝑐|𝑀ư𝑎)

4+1 2+1 3+1 5
P(X|Mưa)= . . =
4+2 4+3 4+2 21
- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑐𝑎𝑜|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝐵ắ𝑐|𝑘ℎô𝑛𝑔 𝑚ư𝑎)
1+1 2+1 2+1 1
= . . =
4 + 2 4 + 3 4 + 2 14
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
5 4 + 1 1 4 + 1 13
= . + . =
21 8 + 2 14 8 + 2 84
5 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) 21 8
.
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 13 =0,77
𝑃(𝑋)
84
1 4
14 8
P(ko mưa|X)= = 13 = 0,23
𝑃(𝑋)
84
Mưa
Đối tượng 12: nhiều, trung bình, Nam
- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑀ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑀ư𝑎). 𝑃(𝑁𝑎𝑚|𝑀ư𝑎)

4+1 1+1 1+1 10
P(X|Mưa)= . . =
4+2 4+3 4+2 147
- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑁𝑎𝑚|𝑘ℎô𝑛𝑔 𝑚ư𝑎)
1+1 0+1 2+1 1
= . . =
4 + 2 4 + 3 4 + 2 42
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
10 4 + 1 1 4 + 1 9
= . + . =
147 8 + 2 42 8 + 2 196
10 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) 147 8
.
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 9 =0,74
𝑃(𝑋)
196
1 4
42 8
P(ko mưa|X)= = 9 = 0,26
𝑃(𝑋)
196
Mưa
Câu 7:
* Hết sức cẩn thận giữa vị trí lớp dự đoán và lớp thực sự, vị trí chính xác như sau
vì vậy ma trận sai số của dữ liệu trên phải chuyển thành như này
Thực sự
Lớp Mua không mua
Dự đoán mua 8986 1358
không mua 1009 2547
-> Ma trận sai số:
Thực sự
Lớp Mua không mua
Dự đoán mua TP FP
không mua FN TN
* Nhắc lại:
TP (True Positive): Tổng số trường hợp dự báo khớp mẫu dương tính.
TN (True Negative): Tổng số trường hợp dự báo khớp mẫu âm tính.
FP (False Positive): Tổng số trường hợp dự báo các quan sát thuộc nhãn âm tính thành dương tính.
FN (False Negative): Tổng số trường hợp dự báo các quan sát thuộc nhãn dương tính thành âm tính.
́ Tính:
Accuracy (độ chính xác): Accuracy đo lường tỷ lệ dự đoán chính xác trên tổng số dự đoán. Accuracy = (TP
+ TN) / (TP + TN + FP + FN)
Error rate (tỷ lệ lỗi): Error rate đo lường tỷ lệ dự đoán sai trên tổng số dự đoán. Error rate = (FP + FN) /
(TP + TN + FP + FN)
Sensitivity (độ nhạy): Sensitivity đo lường khả năng phát hiện đúng các trường hợp "mua" (positive).
Sensitivity = TP / (TP + FN)
Specificity (độ đặc hiệu): Specificity đo lường khả năng phát hiện đúng các trường hợp "không mua"
(negative). Specificity = TN / (TN + FP)
Precision (độ chính xác dự đoán): Precision đo lường tỷ lệ dự đoán chính xác các trường hợp "mua"
(positive) trên tổng số dự đoán "mua". Precision = TP / (TP + FP)
Confusion Matrix
8986 1009
1358 2547
Accuracy = (8986+2547)/(8986+1009+1358+2547) = 83%

Error rate = 1 – accuracy = 17%
Recall = sensitivity = TP rate = 8986 / (8986+1009) = 89.93%
Specificity = TN rate = 2547 / (2547 + 1358) = 65.22%
Precision = 8986 / (8986+2547) = 77.91%
Câu 8:
P1(3,12), P2(9,13), P3(10,11), P4(9,8), P5(6,10), P6(3,9), P7(7,7), P8(5,4), P9(8,4), P10(6,12), P11(8,6)
Khoảng cách Euclide giữa P10(6,12) đến các điểm:
• P1 = √(6 − 3)2 + (12 − 12)2 = 3

• P2 = √(6 − 9)2 + (12 − 13)2 = √10
• P3 = √(6 − 10)2 + (12 − 11)2 = √17
• P4 = √(6 − 9)2 + (12 − 8)2 = 5
• P5 = √(6 − 6)2 + (12 − 10)2 = 2
• P6 = √(6 − 3)2 + (12 − 9)2 = 3√2
• P7 = √(6 − 7)2 + (12 − 7)2 = √26
• P8 = √(6 − 5)2 + (12 − 4)2 = √65
• P9 = √(6 − 8)2 + (12 − 4)2 = 2√17
• P11 = √(6 − 8)2 + (12 − 6)2 = 2√10
→ P1: Xanh, P2: Xanh, P5: Đỏ là 3 điểm gần nhất với P10. Vậy, theo K-NN P10 là nhãn xanh.
Khoảng cách Euclide giữa P11(8,6) đến các điểm:
• P1 = √(8 − 3)2 + (6 − 12)2 = √61

• P2 = √(8 − 9)2 + (6 − 13)2 = 5√2
• P3 = √(8 − 10)2 + (6 − 11)2 = √29
• P4 = √(8 − 9)2 + (6 − 8)2 = √5
• P5 = √(8 − 6)2 + (6 − 10)2 = 2√5
• P6 = √(8 − 3)2 + (6 − 9)2 = √34
• P7 = √(8 − 7)2 + (6 − 7)2 = √2
• P8 = √(8 − 5)2 + (6 − 4)2 = √13
• P9 = √(8 − 8)2 + (6 − 4)2 = 2
• P10 = √(8 − 6)2 + (6 − 12)2 = 2√10
→ P4: Xanh, P7: Đỏ, P9: Xanh là 3 điểm gần nhất với P11. Vậy, theo K-NN P11 là nhãn xanh.
Câu 9:
a. Lưu ý: Nếu dữ liệu chưa được sắp xếp thì hãy sắp xếp lại
Chia theo chiều rộng (Equal width binning):

W = (215-5) / 3 = 70
Bin 1 Range = 5 + 70 = 75
Bin 2 Range = 5 + 2.70 = 145
Bin 3 Range = 5 + 3.70 = 215
Vì vậy chia các giỏ như sau:
[5, 10, 11, 13, 15, 35, 50, 55, 72]

[92, 204]
[215]
Chia theo độ sâu (Equal depth binning)

Chỉ cần chia sao cho các giỏ có số lượng bằng nhau
Vì vậy chia các giỏ như sau
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]
b. Làm trơn dữ liệu

[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]
Cách 1: Sử dụng giá trị trung bình: Tính giá trị trung bình của mỗi giỏ và thay thế
(Theo như slide trên mạng thì sẽ làm tròn)
(5+10+11+13) / 4 = 9.75
(15+35+50+55) / 4 = 38.75
(72+92+204+215) / 4 = 145.75
=> Sau khi làm trơn
[10, 10, 10, 10]
[39, 39, 39, 39]
[146, 146, 146, 146]
Cách 2: Sử dụng giá trị trung vị: Tính giá trị trung vị của mỗi giỏ và thay thế
Tương tự như cách 1 chỉ khác là sử dụng giá trị trung vị
(10+11) / 2 = 10.5
(35+50) / 2 = 42.5
(92+204) / 2 = 148
Cách 3: Sử dụng biên giỏ (Bin Boundaries): Các giá trị ở giữa gần biên nào hơn thì đổi
thành biên đó
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]
Sau khi làm trơn

[5, 13, 13, 13]
[15, 15, 55, 55] (35 đổi thành 15 hay 55 đều được)
[72, 72, 215, 215]
Câu 10:
Ta có ma trận khoảng cách
1 2 3 4 5 6 7 8
1 0
2 5 0
3 8.5 6.1 0
4 3.6 4.2 5 0
5 7.1 5 1.4 3.6 0
6 7.2 4.1 2 4.1 1.41 0
7 8.1 3.16 7.3 7.2 6.7 5.38 0
8 2.23 4.47 6.4 1.4 5 5.38 7.61 0
Eps = 2, Min =2
Bảng khoảng cách thỏa Eps
A1: x
A2: x
A3: A5, A6
A4: A8
A5: A6
A6: A3, A5
A7: x
A8: A4
Xác định Noise và Core
Điểm Trạng thái

A1 Noise
A2 Noise
A3 Core
A4 Noise
A5 Noise
A6 Core
A7 Noise
A8 Noice
Xác định Noise nào là border
Điểm Trạng thái

A1 Noise x
A2 Noise x
A3 Core
A4 x
A5 Border
A6 Core
A7 Noise x
A8 x
Vậy có một cụm duy nhất là A3,A5,A6

Đáp Án KTDL

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Đáp Án KTDL

Uploaded by

Copyright:

Available Formats

Contents

Minsup = 50% → mincount >=5 thì là tập phổ biến

Nghĩa là: những thằng bao nó thì phải nhỏ hơn nó

→ Phổ biến đóng:

Nghĩa là: Không có thằng nào bao nó trong cây→phải là lá.

Tập phổ biến: A, C, D, E, AC, AD, CD, ACD

A -> C: Sup(AC)/Sup(A) = 7/8=87.5% >80% (nhận) ➔ Luật kết hợp: A→(AC-C)

C->A: Sup(AC)/Sup(C) = 7/8=87.5% >80% (nhận) ➔ Luật kết hợp: C→(AC-A)

A->D: Sup(AD)/Sup(A) = 6/8=75% <80% (LOẠI)

D->A: Sup(AD)/Sup(D) = 6/7=85.7% >80% (nhận) ➔ Luật kết hợp: D→(AD-A)

C->D: Sup(CD)/Sup(C) = 6/8=75% < 80% (LOẠI)

D->C: Sup(CD)/Sup(D) = 6/7=85.7% >80% (nhận) ➔ Luật kết hợp: D→(CD-C)

A->CD: Sup(ACD)/Sup(A) = 5/8=62.5% < 80% (LOẠI)

C->AD: Sup(ACD)/Sup(A) = 5/8=62.5% < 80% (LOẠI)

D->AC: Sup(ACD)/Sup(D) = 5/7=71.4% < 80% (LOẠI)

Câu 2: Cho CSDL sau:

=> IG Quang cảnh = 0,8813 – 0,6811 = 0,2002

=> IG Nhiệt độ = 0,8813 – 0,849 = 0,0323

=> IG Độ ẩm = 0,8813 – 0,8465 = 0,0348

=> 𝐼𝐺𝐺𝑖ó = 0.8813 − 0.849 = 0.0323

 Vì 𝐼𝐺𝑄𝑢𝑎𝑛𝑔 𝑐ả𝑛ℎ lớn nhất nên tách tại Quang cảnh

- Tại Quang cảnh nắng có bảng con:

Gió Đi Không đi Entropy

SplitInformation(S, A) = - Σ ((|Sv| / |S|) * log2(|Sv| / |S|))

ì IGQC.Nhiệt độ = IGQC.Độ ẩm nên ta tính Split IG cho từng thành phần

GainRatio(S, A) = InformationGain(S, A) / SplitInformation(S, A)

sau đó tính GainRatio(cái nào càng lớn thì chọn )

- Tại độ Quang cảnh là Mưa có bảng con

Gió Đi Không đi Entropy

Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Tennis?

Sử dụng KNN (k=3)

Biểu diễn số hoá dữ liệu

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Chơi Tennis?

Khoảng cách euclid giữa X11 và mẫu dữ liệu là

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Chơi Khoảng

Khoảng cách euclid giữa X12 và mẫu dữ liệu là

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách

X12 => X12 đi

Khoảng cách euclid giữa X13 và mẫu dữ liệu là

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách

X13 => X13 đi

Khoảng cách euclid giữa X14 và mẫu dữ liệu là

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách

Khoảng cách euclid giữa X15 và mẫu dữ liệu là

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách

Sử dụng Naïve Bayes

P(Cđi) = 7/10 = 0.7; P(C kđi) = 3/10 = 0.3

Xét X11: QC= nắng; NĐ = nóng; ĐÂ = cao; Gió = cao

P(QC = nắng|Cđi) = 1/7; P(QC = nắng|C kđi) = 2/3

P(NĐ = nóng |Cđi) = 1/7; P(NĐ = nóng |C kđi) = 1/3

P(ĐÂ = cao |Cđi) = 3/7; P(ĐÂ = cao |C kđi) = 2/3

P(Gió = cao |Cđi) = 1/7; P(Gió = cao |C kđi) = 1/3

P(X11|C đi) = 1/7*1/7*3/7*1/7 = 0.00125

P(X11|C kđi) = 2/3*1/3*2/3*1/3 = 0.049

Vậy X11 không đi

Xét X12: QC= nắng; NĐ = TB; ĐÂ = TB; Gió = cao

P(QC = nắng|Cđi) = 1/7; P(QC = nắng|C kđi) = 2/3

P(NĐ = TB |Cđi) = 3/7; P(NĐ = TB|C kđi) = 1/3

P(ĐÂ = TB |Cđi) = 4/7; P(ĐÂ = TB|C kđi) = 1/3

P(Gió = cao |Cđi) = 1/7; P(Gió = cao |C kđi) = 1/3

P(X12|C đi) = 1/7*3/7*4/7*1/7 = 0.005

P(X12|C kđi) = 2/3*1/3*1/3*1/3 = 0.024

Vậy X12 không đi

P(X11|C đi) = 1/71/73/7*1/7 = 0.00125

P(X11|C kđi) = 2/31/32/3*1/3 = 0.049

P(X12|C đi) = 1/73/74/7*1/7 = 0.005

P(X12|C kđi) = 2/31/31/3*1/3 = 0.024

P(X13|C đi) = 3/73/73/7*1/7 = 0.011

P(X13|C kđi) = 0/31/31/3*1/3 = 0

P(X14|C đi) = 3/71/74/7*6/7 = 0.03

P(X14|C kđi) = 0/31/31/3*2/3 = 0

P(X15|C đi) = 3/73/73/7*1/7 = 0.011

P(X15|C kđi) = 1/31/32/3*1/3 = 0.024

R(as) = 2/5 * 0 + 1/50 + 2/51 = 0.4