You are on page 1of 46

Contents

1) ĐỀ CK CLC .................................................................................................................................................. 2
Câu 1 ......................................................................................................................................................... 2
Câu 2: Cho CSDL sau:................................................................................................................................. 6
Câu 3 ....................................................................................................................................................... 14
2) BÀI TẬP ÔN KTDL ..................................................................................................................................... 17
Câu 1 ....................................................................................................................................................... 17
Câu 2 ....................................................................................................................................................... 20
Câu 3: ...................................................................................................................................................... 23
Câu 4: ...................................................................................................................................................... 27
Câu 5: ...................................................................................................................................................... 30
Câu 6: Cho CSDL sau : .............................................................................................................................. 36
Câu 7: ...................................................................................................................................................... 38
Câu 8: ...................................................................................................................................................... 41
Câu 9: ...................................................................................................................................................... 42
Câu 10: .................................................................................................................................................... 44
1) ĐỀ CK CLC

Câu 1
Câu 1:

Minsup = 50% → mincount >=5 thì là tập phổ biến

Transaction là: 100->900 ghi gọn lại thành 1->9, vô thi không ghi như v

Item TIDSET
A 12345679
B 2357
C 12345789
D 2346789
E 14678
F 59
G 18
H 26
zxCây IT-tree là Eclat

a)

Nghĩa là: những thằng bao nó thì phải nhỏ hơn nó

→ Phổ biến đóng:

Nghĩa là: Không có thằng nào bao nó trong cây→phải là lá.


→ Phổ biến tối đại:

b) Charm

z`

Ax12345679 ≠
Cx12345789 => Thêm AC
ACx1234579 ≠ Dx2346789 => Thêm ACD
ACDx23479 ≠ Ex14678 => Thêm ACDE (loại vì < minsup)
Ax12345679 ≠ Dx2346789 => Thêm AD
ADx234679 ≠ Ex14678 => Thêm ADE (loại vì < minsup)
Cx12345789 ≠ Dx2346789 => Thêm CD
CDx234789 ≠ Ex14678 => Thêm CDE (loại vì < minsup)
Dx2346789 ≠ Ex14678 => Thêm DE (loài vì < minsup)

d)

Tập phổ biến: A, C, D, E, AC, AD, CD, ACD

S: AC

A -> C: Sup(AC)/Sup(A) = 7/8=87.5% >80% (nhận) ➔ Luật kết hợp: A→(AC-C)

C->A: Sup(AC)/Sup(C) = 7/8=87.5% >80% (nhận) ➔ Luật kết hợp: C→(AC-A)

S: AD

A->D: Sup(AD)/Sup(A) = 6/8=75% <80% (LOẠI)

D->A: Sup(AD)/Sup(D) = 6/7=85.7% >80% (nhận) ➔ Luật kết hợp: D→(AD-A)

S: CD

C->D: Sup(CD)/Sup(C) = 6/8=75% < 80% (LOẠI)

D->C: Sup(CD)/Sup(D) = 6/7=85.7% >80% (nhận) ➔ Luật kết hợp: D→(CD-C)

S: ACD

A->CD: Sup(ACD)/Sup(A) = 5/8=62.5% < 80% (LOẠI)

C->AD: Sup(ACD)/Sup(A) = 5/8=62.5% < 80% (LOẠI)

D->AC: Sup(ACD)/Sup(D) = 5/7=71.4% < 80% (LOẠI)


AC->D: Sup(ACD)/Sup(AC) = 5/7=71.42% < 80% (LOẠI)

AD->C: Sup(ACD)/Sup(AD) = 5/6=83.3% > 80% (nhận) ➔ Luật kết hợp: AD→(ACD-C)

CD->A: Sup(ACD)/Sup(CD) = 5/6=83.3% > 80% (nhận) ➔ Luật kết hợp: CD→(ACD-A)

Câu 2: Cho CSDL sau:


Ngày Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Tennis?
1 Nắng Nóng Cao Thấp Không đi
2 Âm u Nóng Cao Thấp Đi
3 Mưa Lạnh TB Cao Không đi
4 Âm u TB Cao Thấp Đi
5 Mưa TB Cao Thấp Đi
6 Mưa Lạnh TB Thấp Đi
7 Nắng TB Cao Thấp Không đi
8 Nắng Lạnh TB Thấp Đi
9 Âm u Lạnh TB Cao Đi
10 Mưa TB TB Thấp Đi
11 Nắng Nóng Cao Cao
12 Nắng TB TB Cao
13 Âm u TB Cao Cao
14 Âm u Nóng TB Thấp
15 Mưa TB Cao Cao

a. Sử dụng độ đo Informatic Gain tìm các luật phân lớp với thuộc tính quyết định là: Chơi Tennis?
b. Cho biết nhãn của mẫu 11-15?
c. So sánh kết quả của câu b) khi sử dụng kNN với k=3 hoặc Nave Bayes để dự đoán lớp của các
mẫu: 11-15?

a. Để tìm các luật phân lớp với thuộc tính quyết định là "Chơi Tennis?", chúng ta sử dụng độ đo
Informatic Gain cho các thuộc tính còn lại trong bảng dữ liệu.
3 3 7 7
- 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = − 10 log2 10 − 10 log2 10 = 0,8813
Quang cảnh Đi Không đi Entropy
Nắng 1 2 0,9183
Âm u 3 0 0
Mưa 1 3 0,8113
3 4
- 𝐴𝐸𝑄𝑢𝑎𝑛𝑔 𝑐ả𝑛ℎ = . 0,9183 + 10 . 0,8113 = 0,6811
10

=> IG Quang cảnh = 0,8813 – 0,6811 = 0,2002


Nhiệt độ Đi Không đi Entropy
Nóng 1 1 1
Lạnh 3 1 0,8113
TB 3 1 0,8113
2 4 4
- 𝐴𝐸𝑁ℎ𝑖ệ𝑡 độ = . 1 + 10 . 0,8113 + 0,8113 = 0,849
10 10

=> IG Nhiệt độ = 0,8813 – 0,849 = 0,0323


Độ ẩm Đi Không đi Entropy
Cao 3 2 0,971
TB 4 1 0,7219
5 5
- 𝐴𝐸Độ ẩ𝑚 = 0,971 + 0,7219 = 0,8465
10 10

=> IG Độ ẩm = 0,8813 – 0,8465 = 0,0348


Gió Đi Không đi Entropy
Cao 1 1 1
Thấp 6 2 0,8113
2 8
- 𝐴𝐸𝐺𝑖ó = 1+ 0,8113 = 0,849
10 10

=> 𝐼𝐺𝐺𝑖ó = 0.8813 − 0.849 = 0.0323

 Vì 𝐼𝐺𝑄𝑢𝑎𝑛𝑔 𝑐ả𝑛ℎ lớn nhất nên tách tại Quang cảnh

Quang cảnh
Nắng Mưa
Âm u

Đi

- Tại Quang cảnh nắng có bảng con:


Nhiệt độ Độ ẩm Gió Chơi tennis
Nóng Cao Thấp Không đi
TB Cao Thấp Không đi
Lạnh TB Thấp Đi
E(Quang cảnh nắng) = 0,9183
Nhiệt độ Đi Không đi Entropy
Nóng 0 1 0
Lạnh 1 0 0
TB 0 1 0
=> IGQC.Nhiệt độ = 0,9183
Độ ẩm Đi Không đi Entropy
Cao 2 0 0
TB 1 0 0
=> IGQC.Độ ẩm = 0,9183

Gió Đi Không đi Entropy


Cao 0 0 0
Thấp 1 2 0,9183
=> IGQC.Gió = 0

SplitInformation(S, A) = - Σ ((|Sv| / |S|) * log2(|Sv| / |S|))

ì IGQC.Nhiệt độ = IGQC.Độ ẩm nên ta tính Split IG cho từng thành phần


* Splitinformation(Nhiệt độ) = -1/3log2(1/3) -1/3log2(1/3) -1/3log2(1/3) = 1.58
* Splitinformation(Độ ẩm) = -2/3log2(2/3) – 1/3log2(1/3) = 0.92

GainRatio(S, A) = InformationGain(S, A) / SplitInformation(S, A)

sau đó tính GainRatio(cái nào càng lớn thì chọn )


* GainRatio(QC,Nhiệt độ) = 0.9183/1.58 = 0.58
* GainRatio(QC,Độ ẩm) = 0.9183/0.92 = 0.99 -> Ta tách tiếp theo tại độ ẩm, cây như sau

- Tại độ Quang cảnh là Mưa có bảng con


Nhiệt độ Độ ẩm Gió Chơi tennis
Lạnh TB Cao Không đi
TB Cao Thấp Đi
Lạnh TB Thấp Đi
TB TB Thấp Đi
E(Quang cảnh mưa) = 0.8113
Nhiệt độ Đi Không đi Entropy
Nóng 0 0 0
Lạnh 1 1 1
TB 2 0 0
=> IGQC.Nhiệt độ = 0,8113 – 0,5 = 0,3113
Độ ẩm Đi Không đi Entropy
Cao 1 0 0
TB 2 1 0,9183
=> IGQC.Độ ẩm = 0.8113 – ¾ .0,9183 = 0,1226

Gió Đi Không đi Entropy


Cao 0 1 0
Thấp 3 0 0
=> IGQC.Gió = 0.8113
Þ 𝐼𝐺𝑄𝐶.𝐺𝑖ó lớn nhất nên chọn Gió

b. Dựa vào các luật phân lớp đã tìm được, ta có thể dự đoán kết quả "Chơi Tennis?" của ngày 11-15 như
sau:

Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Tennis?


11 Nắng Nóng Cao Cao Không đi
12 Nắng TB TB Cao Đi
13 Âm u TB Cao Cao Đi
14 Âm u Nóng TB Thấp Đi
15 Mưa TB Cao Cao Không đi

c.

Sử dụng KNN (k=3)

Biểu diễn số hoá dữ liệu

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Chơi Tennis?


ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp
h cao TB
1 1 1 1 1 Không đi
2 1 1 1 1 Đi
3 1 1 1 1 Không đi
4 1 1 1 1 Đi
5 1 1 1 1 Đi
6 1 1 1 1 Đi
7 1 1 1 1 Không đi
8 1 1 1 1 Đi
9 1 1 1 1 Đi
10 1 1 1 1 Đi
11 1 1 1 1
12 1 1 1 1
13 1 1 1 1
14 1 1 1 1
15 1 1 1 1

Dự đoán X11:

Khoảng cách euclid giữa X11 và mẫu dữ liệu là

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Chơi Khoảng


ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp Tennis? cách
h cao TB
1 1 0 0 1 0 0 1 0 0 1 Không đi 1
2 0 1 0 1 0 0 1 0 0 1 Đi 1.4
3 0 0 1 0 0 1 0 1 1 0 Không đi 1.7
4 0 1 0 0 1 0 1 0 0 1 Đi 1
5 0 0 1 0 1 0 1 0 0 1 Đi 1
6 0 0 1 0 0 1 0 1 0 1 Đi 1
7 1 0 0 0 1 0 1 0 0 1 Không đi 1.4
8 1 0 0 0 0 1 0 1 0 1 Đi 1.7
9 0 1 0 0 0 1 0 1 1 0 Đi 1.4
10 0 0 1 0 1 0 0 1 0 1 Đi 2
Chọn k = 3:

X11 gần 3 điểm nhất là: X1(k đi), X2(đi), X8(đi) => X11 đi

Dự đoán X12:

Khoảng cách euclid giữa X12 và mẫu dữ liệu là

Chọn k = 3:

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách


ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp
h cao TB
1 1 1 1 1 căn(7
2 1 1 1 1 căn(10
3 1 1 1 1 căn(6
4 1 1 1 1 căn(10
5 1 1 1 1 căn(7
6 1 1 1 1 căn(8
7 1 1 1 1 căn(4
8 1 1 1 1 căn(5
9 1 1 1 1 căn(6
12 1 1 1 1

X12 => X12 đi

Dự đoán X13:

Khoảng cách euclid giữa X13 và mẫu dữ liệu là

Chọn k = 3:

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách


ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp
h cao TB
1 1 1 1 1 căn(8
2 1 1 1 1 căn(5
3 1 1 1 1 căn(8
4 1 1 1 1 căn(2
5 1 1 1 1 căn(5
6 1 1 1 1 căn(10
7 1 1 1 1 căn(5
8 1 1 1 1 căn(10
9 1 1 1 1 căn(5
13 1 1 1 1

X13 => X13 đi

Dự đoán X14:

Khoảng cách euclid giữa X14 và mẫu dữ liệu là

Chọn k = 3:

X14 gần 3 điểm nhất là: X1(k đi), X2(đi), X6(đi) => X14 đi

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách


ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp
h cao TB
1 1 1 1 1 căn(7
2 1 1 1 1 căn(2
3 1 1 1 1 căn(7
4 1 1 1 1 căn(5
5 1 1 1 1 căn(8
6 1 1 1 1 căn(6
7 1 1 1 1 căn(8
8 1 1 1 1 căn(6
9 1 1 1 1 căn(5
14 1 1 1 1

Dự đoán X14: gần 3 điểm nhất là: X2, X4, X9 => X14 đi

Khoảng cách euclid giữa X15 và mẫu dữ liệu là

Chọn k = 3:

Ng Qc QC QC NĐ NĐ NĐ Độ Độ Gió Gió Khoảng cách


ày nắng âm u mưa nóng tb lạn ẩm ẩm cao thấp
h cao TB
1 1 1 1 1 2.82
2 1 1 1 1 2.82
3 1 1 1 1 2.23
4 1 1 1 1 2
5 1 1 1 1 1.44
6 1 1 1 1 2.64
7 1 1 1 1 2.23
8 1 1 1 1 3.16
9 1 1 1 1 2.83
15 1 1 1 1

-> đi

Sử dụng Naïve Bayes

P(Cđi) = 7/10 = 0.7; P(C kđi) = 3/10 = 0.3

Xét X11: QC= nắng; NĐ = nóng; ĐÂ = cao; Gió = cao

P(QC = nắng|Cđi) = 1/7; P(QC = nắng|C kđi) = 2/3

P(NĐ = nóng |Cđi) = 1/7; P(NĐ = nóng |C kđi) = 1/3

P(ĐÂ = cao |Cđi) = 3/7; P(ĐÂ = cao |C kđi) = 2/3

P(Gió = cao |Cđi) = 1/7; P(Gió = cao |C kđi) = 1/3

Ta có:

P(X11|C đi) = 1/7*1/7*3/7*1/7 = 0.00125

P(X11|C kđi) = 2/3*1/3*2/3*1/3 = 0.049

SUy ra:

P(X11|C đi)* P(Cđi) = 0.00125*0.7 = 0.0008 < P(X11|C kđi)* P(C kđi) = 0.049*0.3 = 0.0147

Vậy X11 không đi

Xét X12: QC= nắng; NĐ = TB; ĐÂ = TB; Gió = cao

P(QC = nắng|Cđi) = 1/7; P(QC = nắng|C kđi) = 2/3

P(NĐ = TB |Cđi) = 3/7; P(NĐ = TB|C kđi) = 1/3

P(ĐÂ = TB |Cđi) = 4/7; P(ĐÂ = TB|C kđi) = 1/3

P(Gió = cao |Cđi) = 1/7; P(Gió = cao |C kđi) = 1/3

Ta có:

P(X12|C đi) = 1/7*3/7*4/7*1/7 = 0.005

P(X12|C kđi) = 2/3*1/3*1/3*1/3 = 0.024

SUy ra:

P(X12|C đi)* P(Cđi) = 0.005*0.7 = 0.0035 < P(X12|C kđi)* P(C kđi) = 0.024*0.3 = 0.0072

Vậy X12 không đi


Xét X13: QC= âm u; NĐ = TB; ĐÂ = cao; Gió = cao

P(X13|C đi) = 3/7*3/7*3/7*1/7 = 0.011

P(X13|C kđi) = 0/3*1/3*1/3*1/3 = 0

SUy ra:

P(X13|C đi)* P(Cđi) = 0.011*0.7 = 0.0035 > P(X13|C kđi)* P(C kđi) = 0*0.3 = 0.0072

Vậy X13 đi

Xét X14: QC= âm u; NĐ = nóng; ĐÂ = TB; Gió = thấp

P(X14|C đi) = 3/7*1/7*4/7*6/7 = 0.03

P(X14|C kđi) = 0/3*1/3*1/3*2/3 = 0

SUy ra:

P(X14|C đi)* P(Cđi) = 0.03*0.7 = 0.021 > P(X14|C kđi)* P(C kđi) = 0*0.3 = 0.0072

Vậy X14 đi

Xét X15: QC= mưa; NĐ = TB; ĐÂ = cao; Gió = cao

P(X15|C đi) = 3/7*3/7*3/7*1/7 = 0.011

P(X15|C kđi) = 1/3*1/3*2/3*1/3 = 0.024

SUy ra:

P(X15|C đi)* P(Cđi) = 0.011*0.7 = 0.0077 > P(X15|C kđi)* P(C kđi) = 0.024*0.3 = 0.0072

Vậy X15 đi

Câu 3
Đề không cho tâm, hay cho số cụm -> ta tự chọn số cụm là 4, với các tâm ban của C1,C2,C3,C4 đầu là A1,
A3, A5, A7.

Ta có bảng khoảng các từ các điểm tới các tâm

1 2 3 4 5 6 7 8
C1(2,10) 0 5 8.5 3.6 7.2 8.1 8.1 2.23
C2(8,4) 8.5 6.1 0 5 1.4 2 7.3 6.4
C3(7,5) 7.1 5 1.4 3.6 0 1.41 6.7 5
C4(1,2) 8.1 3.16 7.3 7.2 6.7 5.38 0 7.61

Xét các điểm thuộc cụm (1: thuộc, 0: không thuộc)

1 2 3 4 5 6 7 8
C1(2,10) 1 0 0 1 0 0 0 1
C2(8,4) 0 0 1 0 0 0 0 0
C3(7,5) 0 0 0 0 1 1 0 0
C4(1,2) 0 1 0 0 0 0 1 0

Như vậy ta có:

Cụm C1: A1, A4, A8

Cụm C2: A3

Cụm C3: A5, A6

Cụm C4: A2, A7

Tính lại tâm mỗi cụm

C1 = ( (Xa1 + Xa4 +Xa8) / 3 , (Ya1 + Ya4 +Ya8) / 3) = (3.6 , 9)

C2 = (Xa3, Ya3) = (8 , 4)

C3 = ( (Xa5 + Xa6)/2, (Ya5 + Ya6) / 2) = (6.5 , 4.5)

C4 = ( (Xa2 + Xa7)/2, (Ya2 + Ya7) / 2) = (1.5, 3.5)

Bây giờ ta xét lại các điểm thuộc 4 cụm với tọa độ tâm mới

(bảng kc)

Xét các điểm thuộc cụm (1: thuộc, 0: không thuộc)

1 2 3 4 5 6 7 8
C1(3.6,9) 1 0 0 1 0 0 0 1
C2(8,4) 0 0 1 0 0 0 0 0
C3(6.5,4.5) 0 0 0 0 1 1 0 0
C4(1.5,3.5) 0 1 0 0 0 0 1 0

Ta thấy các điểm không có sự thay đổi về cụm. Vì vậy ta dừng và không tiếp tục phân cụm.

Vì vậy, ta hoàn tất việc phân cụm 8 điểm trên như sau:

Cụm C1: A1, A4, A8

Cụm C2: A3

Cụm C3: A5, A6

Cụm C4: A2, A7

Ảnh minh họa ( không cần làm )


2) BÀI TẬP ÔN KTDL
Câu 1

a)

TID A B C D E F G H I K M P
10 A B C D H K M
20 D E G H I P
30 B C D G H K
40 A B C E I P
50 B D F H K M

C1 sup_count support
A 2 0.4
B 4 0.8
C 3 0.6
D 4 0.8
E 2 0.4
F 1 0.2
G 2 0.4 L1 sup conf
H 4 0.8 B 4 0.8
I 2 0.4 C 3 0.6
K 3 0.6 D 4 0.8
M 2 0.4 H 4 0.8
P 2 0.4 -> K 3 0.6
C2 sup_count support
BC 3 0.6
BD 3 0.6
BH 3 0.6 L2 sup conf
BK 3 0.6 BC 3 0.6
CD 2 0.4 BD 3 0.6
CH 2 0.4 BH 3 0.6
CK 2 0.4 BK 3 0.6
DH 4 0.8 DH 4 0.8
DK 3 0.6 DK 3 0.6
HK 3 0.6 -> HK 3 0.6

Column1 Column2 Column3


C3 loai vi sup_count
BCD CD
BCH CH
BCK CK L3 sup conf
BDH 3 BDH 3 0.6
BDK 3 BDK 3 0.6
BHK 3 BHK 3 0.6
DHK 3 -> DHK 3 0.6

C4 L4
BDHK 3 0.6 -> BDHK 3 0.6

Vậy tập phổ biến, phổ biến đóng và tối đại là:
L sup conf Đóng Tối đại
B 4 0.8 1
C 3 0.6
D 4 0.8
H 4 0.8
K 3 0.6

BC 3 0.6 1 1
BD 3 0.6
BH 3 0.6
BK 3 0.6
DH 4 0.8 1
DK 3 0.6
HK 3 0.6

BDH 3 0.6
BDK 3 0.6
BHK 3 0.6
DHK 3 0.6
BDHK 3 0.6 1 1

b) item1 & item 2 -> item 3 & item 4 ( Xét tập phổ biến có 4 phần tử)

BDHK

sup_count conf
BD - HK 3 1.00
HK - BD 3 1.00
BH - DK 3 1.00
DK - BH 3 1.00
BK - DH 3 1.00
DH - BK 3 0.75 loại

D -> item (vế phải có một hạng mục khác với hạng mục D)

sup_count conf
D => B 3 0.75 loại
D => H 4 1.00 Nhận
D => K 3 0.75 loại
Câu 2

* Single Link ( Nôm na là lấy giá trị nhỏ nhất của 2 nhóm khi gom cụm )

Min = P2 P3 0.06
XXX P1 P2 P3 P4 P5 P6 P7
P1 0
P2 P3 0.23 0
P4 0.56 0.59 0
P5 0.17 0.28 0.44 0
P6 0.4 0.24 0.48 0.37 0
P7 0.14 0.22 0.46 0.09 0.31 0

( Nhóm 2 cái có khoản cách nhỏ nhất, sau đó lấy khoảng cách nhỏ nhất để đại diện )

Min = P5 P7 0.09

XXX P1 P2 P3 P4 P5 P7 P6
P1 0
P2 P3 0.23 0
P4 0.56 0.59 0
P5 P7 0.14 0.22 0.44 0
P6 0.4 0.24 0.48 0.31 0
MIN = 0.14 P1 P5 P7

XXX P1 P5 P7 P2 P3 P4 P6
P1 P5 P7 0
P2 P3 0.22 0
P4 0.44 0.59 0
P6 0.31 0.24 0.48 0

MIN = 0.22 P12357

XXX P12357 P4 P6
P12357 0
P4 0.44 0
P6 0.24 0.48 0

MIN = 0.24 P123 567

Column1 P123 567 P4


P123 567 0
P4 0.44 0

Sau đó mình vẽ lại hình như sau:


* COMPLETE LINK ( ngược với single link, thay vì lấy gần nhất nhất mình lấy xa nhất )

* chú ý: xa nhất là khoảng cách mới giữa nhóm vừa lập với các điểm khác, chứ gom nhóm lại với nhau
vẫn lấy MIN

COMPLETE LINK
Min = P2 P3 0.06
XXX P1 P2 P3 P4 P5 P6 P7
P1 0
P2 P3 0.27 0
P4 0.56 0.75 0
P5 0.17 0.33 0.44 0
P6 0.4 0.25 0.48 0.37 0
P7 0.14 0.26 0.46 0.09 0.31 0

MIN = 0.17 P1 P5 P7

XXX P1 P5 P7 P2 P3 P4 P6
P1 P5 P7 0
P2 P3 0.33 0
P4 0.56 0.75 0
P6 0.4 0.24 0.48 0

MIN = 0.24 P2 P3 P6

XX P1 P5 P7 P2 P3 P6 P4
P1 P5 P7 0
P2 P3 P6 0.4 0
P4 0.56 0.75 0

MIN = 0.4 123567

XX 123567 4
123567 0
4 0.75 0

Sau đó vẽ lại hình:


Câu 3:

* Dùng cái đơn giản nhất là entropy ( tổng 4 mưa, 4 không )

Entropy tổng

E = -4/8 log2(4/8) -4/8log2(4/8) = 1


Xét thuộc tính Mây

Mây Mưa không I


ít 0 3 0
nhiều 4 1 0.72
(tính I như tính entropy)
R(mây) = 3/8 * 0 + 5/8 * 0.72 = 0.45
-> IG(mây) = E – R(mây) = 1 – 0.45 = 0.55

Xét thuộc tính Áp suât

Áp suât Mưa không I


cao 2 2 1
tb 1 0 0
thấp 1 2 0.92
R(as) = 4/8*1 + 1/8*0 + 3/8*0.92 = 0.845
->IG(as) = E- R(as) = 1-0.845 = 0.155

Xét thuộc tính Gió:

Gió Mưa không I


bắc 3 2 0.97
nam 1 2 0.92
R(gió) = 5/8 * 0.97 + 3/8*0.92 = 0.951
->IG(gió) = E-R(gió) = 1 – 0.951 = 0.048

Chọn thuộc tính có IG lớn nhất nên chọn Mây

* ĐỂ LÀM TIẾP THÌ BỎ TRƯỜNG HỢP MÂY ÍT RA KHỎI BẢNG RỒI TÍNH LẠI ENTROPY
vẽ nháp cho dễ nhìn
* Tính entropy mới (

Entropy = -4/5log2(4/5)-1/5log2(1/5) = 0.72

Xét áp suât

Áp suât Mưa không I


cao 2 0 0
tb 1 0 0
thấp 1 1 1

R(as) = 2/5 * 0 + 1/5*0 + 2/5*1 = 0.4


->IG(as) = E-R(as) = 1 – 0.4 = 0.6

Xét Gió

Gió Mưa không I


bắc 3 0 0
nam 1 1 1

R(gió) = 3/5 * 0 + 2/5*1 = 0.4


->IG(gió) = E-R(gió) = 1 – 0.4 = 0.6

IG bằng nhau nên chọn gì cũng được, chọn gió


Bảng mới

Chỉ còn cột cuối cùng, ta thấy áp suất cao thì mưa, thấp thì không mưa, cây quyết định:
Câu 4:

a.
TID ITEM
A 10, 40, 50
B 30
C 20, 30, 40, 50
D 10, 30, 40, 50
E 20, 40
F 30, 40, 50
G 10, 40
H 10, 50
I 30, 40, 50

C1 Support
A 3
B 1
C 4
D 4
E 2
F 3
G 2
H 2
I 3
F1 Support
A 3
C2 Support C 4
A,C 2 D 4
A,D 3 F 3
A,F 2 I 3
A,I 2
C,D 3 F2 Support
C,F 3 A,D 3
C,I 3 C,F 3
D,F 3 C,I 3
D,I 3 D,F 3
F,I 3 D,I 3
F,I 3

C3 Support F3 Support
A, D, F 2 C, F, I 3
A, D, I 2 C, D, F 3
C, F, I 3 C, D, I 3
C, D, F 3 D, F, I 3
C, D, I 3
D, F, I 3

C4 Support F4 Support
C, D, F, I 3 C, D, F, I 3

Như vậy có tất cả 16 tập hạng mục phổ biến thỏa minsup = 60%

Tập phổ biến tối đại: CDFI


Tập bao phổ biến:

b. Tập phổ biến: A, C, D, F, I, AD, CF, CI, DF, DI, FI, CFI, CDF, CDI, DFI, CDFI
Minconf = 80%
S: AD
A->D: sup(AD)/Sup(A) = 100% > 80% (nhận) ->Luật kết hợp: A->(AD-D)
D->: sup(AD)/Sup(D) = 75% < 80% (loại)
S: CF

S: CI
S: DF

S: DI

S: FI

S: CFI

S: CDF

S: CDI

S: DFI

S: CDFI
Câu 5:
Cho CSDL sau :

Bài làm:

a. Chia bảng CSDL với Kết quả là thuộc tính phân lớp thành 2 bảng:

Bảng 1: Kết quả Không mưa:

Đối tượng Mây Áp suất Gió


1 Ít Cao Bắc
3 Ít Thấp Bắc
5 Nhiều Thấp Nam
7 Ít Cao Nam
Bảng 2: Kết quả mưa:

Đối tượng Mây Áp suất Gió


2 Nhiều Cao Nam
4 Nhiều Trung Bình Bắc
6 Nhiều Thấp Bắc
8 Nhiều Cao Bắc
Đầu tiên ta xét từng thuộc tính (Mây, Áp suất, Gió) của từng bảng.

Ví dụ tại thuộc tính Mây (cột Mây) có nhãn Nhiều ở cả Bảng 1 và 2 nên cho nó là 0. Thuộc tính Ít chỉ có
tại Bảng 1 nên đếm số lần có tại Bảng 1

Ta được:

Xét bảng con 1: nhóm Không mưa


Tổ hợp 1 trong 3 thuộc tính {Mây, Áp suất, Gió}

{Mây}: Ít: 3, Nhiều:0

{Áp suất}: Cao:0, Thấp:0, Trung bình:0

{Gió}: Nam:0, Bắc:0

→Chọn Ít:3(vì có chỉ số lớn nhất)

→Luật: Mây= “Ít” → Không mưa

Bảng 1: Kết quả Không mưa:

Đối tượng Mây Áp suất Gió


5 Nhiều Thấp Nam
Bảng 2: Kết quả mưa:

Đối tượng Mây Áp suất Gió


2 Nhiều Cao Nam
4 Nhiều Trung Bình Bắc
6 Nhiều Thấp Bắc
8 Nhiều Cao Bắc

Tổ hợp 2 trong 3 thuộc tính {Mây, Áp suất,Gió}

{Mây,áp suất}: {Nhiều, Thấp}: 0

{Mây, Gió}: {Nhiều,Nam}:0

{Áp suất, Gió}: {Thấp,Nam}:1

Chọn {Thấp,Nam}

Dòng 5 được đánh dấu. Áp suất = “Thấp” và Gió = “Nam” →Không mưa

Tất cả các dòng đã đánh dấu nên ta đi tiếp bảng 2

Xét bảng con 2: nhóm mưa

Tổ hợp 1 trong 3 thuộc tính {Mây, Áp suất, Gió}

{Mây}: Nhiều: 0

{Áp suất}: Cao:0, Trung bình: 1, Thấp:0

{Gió}: Nam:0, Bắc:0

Chọn {Trung bình}

Dòng 4 được đánh dấu. Áp suất= “Trung bình” →Mưa

Bảng 1: Kết quả Không mưa:


Đối tượng Mây Áp suất Gió
1 Ít Cao Bắc
3 Ít Thấp Bắc
5 Nhiều Thấp Nam
7 Ít Cao Nam
Bảng 2: Kết quả mưa:

Đối tượng Mây Áp suất Gió


2 Nhiều Cao Nam
6 Nhiều Thấp Bắc
8 Nhiều Cao Bắc
Tổ hợp 2 trong 3 thuộc tính

{Mây, Áp suất}: {Nhiều,Cao}: 2, {Nhiều, Thấp}:0

{Mây, Gió}: {Nhiều,Nam}:0, {Nhiều, Bắc}:2

{Áp suất, Gió}: {Cao,Nam}: 0, {Thấp,Bắc}:0, {Cao,Bắc}: 0

Chọn {Nhiều, Cao}:2 (Chọn Nhiều, Bắc cũng được vì nó bằng nhau)

Đánh dấu dòng 2,8. Luật: Mây= “Nhiều” và Áp suất= “Cao” thì kết quả: Mưa

Bảng 1: Kết quả Không mưa:

Đối tượng Mây Áp suất Gió


1 Ít Cao Bắc
3 Ít Thấp Bắc
5 Nhiều Thấp Nam
7 Ít Cao Nam
Bảng 2: Kết quả mưa:

Đối tượng Mây Áp suất Gió


6 Nhiều Thấp Bắc
Chỉ tính lại những tổ hợp thuộc tính có mà chưa cho luật.

{Mây,Gió}: {Nhiều,Bắc}: 1

Ta được luật: Mây= “Nhiều” và Gió= “Bắc” thì kết quả: Mưa

Vậy tổng kết ta được các luật:

- Luật 1: Mây ít -> Không mưa


- Luật 2: Áp suất Thấp, Gió Nam -> Không mưa
- Luật 3: Áp suất Trung bình -> Mưa
- Luật 4: Mây nhiều, Áp suất cao -> Mưa
- Luật 5: Mây nhiều, Gió Bắc -> Mưa

Vậy
Đối tượng Mây Áp suất Gió Kết quả
9 Ít Trung bình Bắc Mưa/Không mưa
10 Ít Thấp Nam Không mưa
11 Nhiều Trung bình Nam Mưa

b. Sử dụng thuật toán Cây quyết định:

Mây Kết quả : Không mưa Kết quả: Mưa Entropy


Ít 3 0 0
Nhiều 1 4 0,7219

=> IG Mây = 1 – 0,6811 = 0,3189


Áp suất Không mưa Mưa Entropy
Cao 2 2 1
Thấp 2 1 0,9183
Trung bình 0 1 0

=> IG Áp suất = 1 – 0,8444 = 0,1556


Gió Kết quả : Không mưa Kết quả: Mưa Entropy
Bắc 2 3 0,971
Nam 2 1 0,9183

=> IG Gió= 1 – 0,9152 = 0,0848


Vì lớn nhất nên tách tại Mây
Tại Mây Nhiều có bảng con:

Áp suất Gió Kết quả


Cao Nam Mưa
Trung bình Bắc Mưa
Thấp Nam Không mưa
Thấp Bắc Mưa
Cao Bắc Mưa

Áp suất Không Mưa Mưa Entropy


Cao 0 2 0
Trung bình 0 1 0
Thấp 1 1 1

Gió Không Mưa Mưa Entropy


Nam 1 1 0
Bắc 0 3 0

Vì IG gió lớn nhất nên tách tại Gió


Tại Gió Nam ta có bảng con:

Áp suất Kết quả


Cao Mưa
Thấp Không mưa
Do đó ta được cây quyết định

Vậy ta được:

Đối tượng Mây Áp suất Gió Kết quả


9 Ít Trung bình Bắc Không mưa
10 Ít Thấp Nam Không mưa
11 Nhiều Trung bình Nam Không xác định
Câu 6: Cho CSDL sau :

Sử dụng thuật toán Naïve Bayes để xác định lớp cho mẫu mới sau:

Bài làm:

Công thức Naïve Bayes:


𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
𝑃(𝐶𝑖 |𝑋) =
𝑃(𝑥)
%𝑚ư𝑎
Đối tượng 9: X=ít, thấp, Nam ->{ →% nào lớn hơn thì Kết quả là cái đó
%𝑘ℎô𝑛𝑔 𝑚ư𝑎
- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(í𝑡|𝑀ư𝑎). 𝑃(𝑡ℎấ𝑝|𝑀ư𝑎). 𝑃(𝑁𝑎𝑚|𝑀ư𝑎)
0
Vì xác suất ít|Mưa là 4 nên nếu nhân 0 thì tất cả bằng 0
Do đó ta cần cộng thêm Laplace Correction cho cả bài
→Mẫu + Số lượng nhãn của thuộc tính(Ví dụ Mây là có 2 nhãn ít và nhiều)
→Tử + 1 (luôn cộng 1)
Khi đó:
0+1 1+1 1+1 1
𝑃(𝑋|𝑀ư𝑎) = . . =
4+2 4+3 4+2 63
- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(í𝑡|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑡ℎấ𝑝|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑁𝑎𝑚|𝑘ℎô𝑛𝑔 𝑚ư𝑎)
3+1 2+1 2+1 1
= . . =
4+2 4+3 4+2 7
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
= 𝑃(𝑋|𝑚ư𝑎). 𝑃(𝑚ư𝑎) + 𝑃(𝑋|𝑘𝑜 𝑚ư𝑎). 𝑃(𝑘𝑜 𝑚ư𝑎)
1 4+1 1 4+1 5
= . + . =
63 8 + 2 7 8 + 2 63
1 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) .
63 8
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 5 =0,1
𝑃(𝑋)
63
14
𝑃(𝑋 |𝑘𝑜 𝑚ư𝑎).𝑃(𝑘𝑜 𝑀ư𝑎) .
78
P(ko mưa|X)= = 5 = 0,9
𝑃(𝑋)
63
Kết quả X là không mưa
Tương tự:

Đối tượng 10: X=ít,trung bình,Bắc

- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(í𝑡|𝑀ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑀ư𝑎). 𝑃(𝐵ắ𝑐|𝑀ư𝑎)


0+1 1+1 3+1 2
P(X|Mưa)= . . =
4+2 4+3 4+2 63

- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(í𝑡|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝐵ắ𝑐|𝑘ℎô𝑛𝑔 𝑚ư𝑎)


3+1 0+1 2+1 1
= . . =
4 + 2 4 + 3 4 + 2 21
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
= 𝑃(𝑋|𝑚ư𝑎). 𝑃(𝑚ư𝑎) + 𝑃(𝑋|𝑘𝑜 𝑚ư𝑎). 𝑃(𝑘𝑜 𝑚ư𝑎)
2 4+1 1 4+1 5
= . + . =
63 8 + 2 21 8 + 2 126
2 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) .
63 8
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 5 =0,4
𝑃(𝑋)
126
1 4
𝑃(𝑋 |𝑘𝑜 𝑚ư𝑎).𝑃(𝑘𝑜 𝑀ư𝑎) .
21 8
P(ko mưa|X)= = 5 = 0,6
𝑃(𝑋)
126

Không mưa

Đối tượng 11: X=nhiều, cao, Bắc

- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑀ư𝑎). 𝑃(𝑐𝑎𝑜|𝑀ư𝑎). 𝑃(𝐵ắ𝑐|𝑀ư𝑎)


4+1 2+1 3+1 5
P(X|Mưa)= . . =
4+2 4+3 4+2 21
- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑐𝑎𝑜|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝐵ắ𝑐|𝑘ℎô𝑛𝑔 𝑚ư𝑎)
1+1 2+1 2+1 1
= . . =
4 + 2 4 + 3 4 + 2 14
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
= 𝑃(𝑋|𝑚ư𝑎). 𝑃(𝑚ư𝑎) + 𝑃(𝑋|𝑘𝑜 𝑚ư𝑎). 𝑃(𝑘𝑜 𝑚ư𝑎)
5 4 + 1 1 4 + 1 13
= . + . =
21 8 + 2 14 8 + 2 84
5 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) 21 8
.
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 13 =0,77
𝑃(𝑋)
84
1 4
𝑃(𝑋 |𝑘𝑜 𝑚ư𝑎).𝑃(𝑘𝑜 𝑀ư𝑎) .
14 8
P(ko mưa|X)= = 13 = 0,23
𝑃(𝑋)
84
Mưa

Đối tượng 12: nhiều, trung bình, Nam

- 𝑃(𝑋|𝑀ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑀ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑀ư𝑎). 𝑃(𝑁𝑎𝑚|𝑀ư𝑎)


4+1 1+1 1+1 10
P(X|Mưa)= . . =
4+2 4+3 4+2 147
- 𝑃(𝑋|𝑘ℎô𝑛𝑔 𝑚ư𝑎) = 𝑃(𝑛ℎ𝑖ề𝑢|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ|𝑘ℎô𝑛𝑔 𝑚ư𝑎). 𝑃(𝑁𝑎𝑚|𝑘ℎô𝑛𝑔 𝑚ư𝑎)
1+1 0+1 2+1 1
= . . =
4 + 2 4 + 3 4 + 2 42
- 𝑃(𝑋) = ∑ 𝑃(𝑋|𝐶𝑖 ). 𝑃(𝐶𝑖 )
= 𝑃(𝑋|𝑚ư𝑎). 𝑃(𝑚ư𝑎) + 𝑃(𝑋|𝑘𝑜 𝑚ư𝑎). 𝑃(𝑘𝑜 𝑚ư𝑎)
10 4 + 1 1 4 + 1 9
= . + . =
147 8 + 2 42 8 + 2 196
10 4
𝑃(𝑋 |𝑚ư𝑎 ).𝑃(𝑀ư𝑎) 147 8
.
→𝑃 (𝑚ư𝑎 |𝑋 ) = = 9 =0,74
𝑃(𝑋)
196
1 4
𝑃(𝑋 |𝑘𝑜 𝑚ư𝑎).𝑃(𝑘𝑜 𝑀ư𝑎) .
42 8
P(ko mưa|X)= = 9 = 0,26
𝑃(𝑋)
196

Mưa

Câu 7:

* Hết sức cẩn thận giữa vị trí lớp dự đoán và lớp thực sự, vị trí chính xác như sau
vì vậy ma trận sai số của dữ liệu trên phải chuyển thành như này

Thực sự
Lớp Mua không mua
Dự đoán mua 8986 1358
không mua 1009 2547

-> Ma trận sai số:

Thực sự
Lớp Mua không mua
Dự đoán mua TP FP
không mua FN TN

* Nhắc lại:

TP (True Positive): Tổng số trường hợp dự báo khớp mẫu dương tính.

TN (True Negative): Tổng số trường hợp dự báo khớp mẫu âm tính.

FP (False Positive): Tổng số trường hợp dự báo các quan sát thuộc nhãn âm tính thành dương tính.

FN (False Negative): Tổng số trường hợp dự báo các quan sát thuộc nhãn dương tính thành âm tính.

́ Tính:

Accuracy (độ chính xác): Accuracy đo lường tỷ lệ dự đoán chính xác trên tổng số dự đoán. Accuracy = (TP
+ TN) / (TP + TN + FP + FN)

Error rate (tỷ lệ lỗi): Error rate đo lường tỷ lệ dự đoán sai trên tổng số dự đoán. Error rate = (FP + FN) /
(TP + TN + FP + FN)

Sensitivity (độ nhạy): Sensitivity đo lường khả năng phát hiện đúng các trường hợp "mua" (positive).
Sensitivity = TP / (TP + FN)
Specificity (độ đặc hiệu): Specificity đo lường khả năng phát hiện đúng các trường hợp "không mua"
(negative). Specificity = TN / (TN + FP)

Precision (độ chính xác dự đoán): Precision đo lường tỷ lệ dự đoán chính xác các trường hợp "mua"
(positive) trên tổng số dự đoán "mua". Precision = TP / (TP + FP)

Confusion Matrix
8986 1009
1358 2547

Accuracy = (8986+2547)/(8986+1009+1358+2547) = 83%


Error rate = 1 – accuracy = 17%
Recall = sensitivity = TP rate = 8986 / (8986+1009) = 89.93%
Specificity = TN rate = 2547 / (2547 + 1358) = 65.22%
Precision = 8986 / (8986+2547) = 77.91%
Câu 8:

P1(3,12), P2(9,13), P3(10,11), P4(9,8), P5(6,10), P6(3,9), P7(7,7), P8(5,4), P9(8,4), P10(6,12), P11(8,6)

Khoảng cách Euclide giữa P10(6,12) đến các điểm:

• P1 = √(6 − 3)2 + (12 − 12)2 = 3


• P2 = √(6 − 9)2 + (12 − 13)2 = √10
• P3 = √(6 − 10)2 + (12 − 11)2 = √17
• P4 = √(6 − 9)2 + (12 − 8)2 = 5
• P5 = √(6 − 6)2 + (12 − 10)2 = 2
• P6 = √(6 − 3)2 + (12 − 9)2 = 3√2
• P7 = √(6 − 7)2 + (12 − 7)2 = √26
• P8 = √(6 − 5)2 + (12 − 4)2 = √65
• P9 = √(6 − 8)2 + (12 − 4)2 = 2√17
• P11 = √(6 − 8)2 + (12 − 6)2 = 2√10

→ P1: Xanh, P2: Xanh, P5: Đỏ là 3 điểm gần nhất với P10. Vậy, theo K-NN P10 là nhãn xanh.

Khoảng cách Euclide giữa P11(8,6) đến các điểm:

• P1 = √(8 − 3)2 + (6 − 12)2 = √61


• P2 = √(8 − 9)2 + (6 − 13)2 = 5√2
• P3 = √(8 − 10)2 + (6 − 11)2 = √29
• P4 = √(8 − 9)2 + (6 − 8)2 = √5
• P5 = √(8 − 6)2 + (6 − 10)2 = 2√5
• P6 = √(8 − 3)2 + (6 − 9)2 = √34
• P7 = √(8 − 7)2 + (6 − 7)2 = √2
• P8 = √(8 − 5)2 + (6 − 4)2 = √13
• P9 = √(8 − 8)2 + (6 − 4)2 = 2
• P10 = √(8 − 6)2 + (6 − 12)2 = 2√10

→ P4: Xanh, P7: Đỏ, P9: Xanh là 3 điểm gần nhất với P11. Vậy, theo K-NN P11 là nhãn xanh.
Câu 9:

a. Lưu ý: Nếu dữ liệu chưa được sắp xếp thì hãy sắp xếp lại

Chia theo chiều rộng (Equal width binning):


W = (215-5) / 3 = 70
Bin 1 Range = 5 + 70 = 75
Bin 2 Range = 5 + 2.70 = 145
Bin 3 Range = 5 + 3.70 = 215

Vì vậy chia các giỏ như sau:

[5, 10, 11, 13, 15, 35, 50, 55, 72]


[92, 204]
[215]

Chia theo độ sâu (Equal depth binning)


Chỉ cần chia sao cho các giỏ có số lượng bằng nhau
Vì vậy chia các giỏ như sau
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

b. Làm trơn dữ liệu


[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

Cách 1: Sử dụng giá trị trung bình: Tính giá trị trung bình của mỗi giỏ và thay thế
(Theo như slide trên mạng thì sẽ làm tròn)
(5+10+11+13) / 4 = 9.75
(15+35+50+55) / 4 = 38.75
(72+92+204+215) / 4 = 145.75
=> Sau khi làm trơn
[10, 10, 10, 10]
[39, 39, 39, 39]
[146, 146, 146, 146]

Cách 2: Sử dụng giá trị trung vị: Tính giá trị trung vị của mỗi giỏ và thay thế
Tương tự như cách 1 chỉ khác là sử dụng giá trị trung vị
(10+11) / 2 = 10.5
(35+50) / 2 = 42.5
(92+204) / 2 = 148

Cách 3: Sử dụng biên giỏ (Bin Boundaries): Các giá trị ở giữa gần biên nào hơn thì đổi
thành biên đó
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

Sau khi làm trơn


[5, 13, 13, 13]
[15, 15, 55, 55] (35 đổi thành 15 hay 55 đều được)
[72, 72, 215, 215]

Câu 10:

Ta có ma trận khoảng cách

1 2 3 4 5 6 7 8
1 0
2 5 0
3 8.5 6.1 0
4 3.6 4.2 5 0
5 7.1 5 1.4 3.6 0
6 7.2 4.1 2 4.1 1.41 0
7 8.1 3.16 7.3 7.2 6.7 5.38 0
8 2.23 4.47 6.4 1.4 5 5.38 7.61 0

Eps = 2, Min =2

Bảng khoảng cách thỏa Eps

A1: x

A2: x

A3: A5, A6

A4: A8

A5: A6

A6: A3, A5

A7: x

A8: A4

Xác định Noise và Core

Điểm Trạng thái


A1 Noise
A2 Noise
A3 Core
A4 Noise
A5 Noise
A6 Core
A7 Noise
A8 Noice

Xác định Noise nào là border

Điểm Trạng thái


A1 Noise x
A2 Noise x
A3 Core
A4 x
A5 Border
A6 Core
A7 Noise x
A8 x
Vậy có một cụm duy nhất là A3,A5,A6

You might also like