PhanLop (Compatib&#

PHÂN
Â LỚP VÀ
À DỰ ĐOÁN
Á
NỘI DUNG
 Phân lớp và dự đoán?

 Các vấn đề về phân lớp và dự đoán
 Quy nạp trên cây quyết

ế định
 Phân lớp Bayes
 Các
Cá phương
h pháp
há phân
hâ lớlớp khác
khá
PHÂN LớP LÀ GÌ ? Dự ĐOÁN LÀ GÌ?
 Có thể dùng phân lớp và dự đoán để xác lập mô

hình nhằm mô tả các lớp quan trọng hay dự đoán
khuynh hướng dữ liệu trong tương lai
 Phân lớp(classification): Tạo ra bộ phân lớp/ mô
hình.
 Dự
D đoán
đ á (prediction):
( di ti ) Dựa
D vào à bộ phân
hâ lớp
lớ để dự
d
đoán nhãn của các mẫu chưa biết nhãn.
Phân lớp là gì? Dự đoán là gì ?
 Phân lớp
Phâ lớ dữ liệu
liệ là tiến
tiế
trình có 2 bước
 Huấn luyện: Dữ liệu
huấn luyệnyệ được
ợ p phân
tích bởi thuật tóan phân
lớp ( có thuộc tính nhãn
lớp) để tạo ra bộ phân lớp
 Phân lớp: Dữ liệu kiểm
tra được dùng để ước
lượng độ chính xác của bộ
phân lớp. Nếu độ chính
xác là chấp nhận được thì
có thể dùng bộ phân lớp
để phân lớp các mẫu dữ
liệu mới.
Phân lớp là gì? Dự đoán là gì ?
 Độộ chính
hí h xác
á (accuracy)
( ) của
ủ bộ phân
hâ lớp
lớ trên
ê
tập kiểm tra cho trước là phần trăm của các
mẫu trong tập kiểm tra được bộ phân lớp xếp
lớp đúng
correctly
tl classified t t sample
l ifi d test l
Accuracy 
total number of test sample
CHUẨN BỊ DỮ LIỆU
 Làm sạch dữ liệu

 Nhiễu
 Thiếu giá trị
 Phân tích liên quan (chọn đặc trưng)

 Các thuộc tính không liên quan
 Các thuộc tính dư thừa
 Biến đổi dữ liệu

SO SÁNH CÁC PHƯƠNG PHÁP PHÂN LỚP
 Độ chính
hí h xác
á của
ủ dựd đoán:
đ á khả năng
ă bộ phân
hâ
lớp dự đoán đúng dữ liệu chưa biết trước nhãn
 Tính bền vững: khả năng của bộ phân lớp thực
hiện dự đoán đúng với dữ liệu nhiễu hay thiếu
giá trị
 Tính kích cỡ (scalability): khả năng tạo bộ
phân lớp hiệu quả với số lượng dữ liệu lớn
 Khả năngă diễ giải:
diễn iải bộ phân
hâ lớp
lớ cung cấpấ tri
t i
thức có thể hiểu được
CÂY QUYẾT ĐỊNH
CÂY QUYẾT ĐỊNH
Câyyq
quyết
y định là cấu trúc cây y sao cho:
 Mỗi nút trong ứng với một phép kiểm tra trên
một thuộc tính
 Mỗi nhánh biểu diễn kết quả phép kiểm tra
 Các nút lá biểu diễn các lớp hay các phân bố lớp
 Nút cao nhất trong cây là nút gốc.
CÂY QUYẾT ĐỊNH: VÍ DỤ
Cây quyết định: có mua computer? Dựa vào các thuộc tính tuổi,
sinh viên, Uy tín.
Sườn chung về quy nạp trên cây quyết định
1. Chọn
ọ thuộcộ tính “tốt nhất” theo mộtộ độ
ộ đo chọn
ọ lựaự cho trước
2. Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính
3. Sắp xếp các ví dụ học vào nút lá
4. Nếu các ví dụ được phân lớp rõ thì Stop nguợc lại lặp lại các bước 1-4 cho mỗi
nút lá
5. Tỉa các nút lá không ổn định

Temperature
Headache Temperature Flu normall
high very high
{e1, e4}
{e2, e5} {e3,e6}
e1 yes normal no
e2 yes high yes no Headache Headache
e3 yes very high yes
yes no yes no
e4 no normal no {e2} {e5} {e3} {e6}
e5 no high no
e6 no very high no yes no yyes no
CHIẾN LƯỢC CƠ BẢN
 Bắt đầu từ nút đơn biểu diễn tất cả các mẫu

 Nếu
ế các mẫuẫ thuộc vềề cùng một lớp, nút trở thành nút lá và
được gán nhãn bằng lớp đó
 Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân
tách tốt nhất các mẫu vào các lớp
 Một nhánh được tạo cho từng giá trị của thuộc tính được
chọn và các mẫu được phân hoạch theo
 Dùng đệ quy cùng một quá trình để tạo cây quyết định
 Tiến trình kết thúc chỉ khi bất kỳ điều kiện nào sau đây là
đúng
 Tất cả các mẫu cho một nút cho trước đều thuộc về cùng một
lớp.
 Không còn thuộc tính nào mà mẫu có thể dựa vào để phân
hoạch xa hơn.
 Không còn mẫu nào cho nhánh test_attribute = ai
BẢNG DỮ LIỆU HUẤN LUYỆN
Day Outloook Temp Humidity Wind PlayTennis
D1 Sunny Hot High Weak No

D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6
6 Rain
Ra Cool
Coo Normal
o a Strong
St o g No
o
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rain Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
CÂY QUYẾT ĐỊNH CHO BÀI TOÁN CHƠI TENNIS
temperature
p
cool hot mild
{D5, D6, D7, D9} {D1, D2, D3, D13} {D4, D8, D10, D11,D12, D14}
outlook wind outlook
sunny rain o’cast true false sunny o’cast rain

{D9} {D5, D6} {D7} {D2} {D1, D3, D13} {D8, D11} {D12} {D4, D10,D14}
yes wind yes no humidity wind yes humidity
true false high normal true false high normal

{D11} {D8} {D4 D14}
{D4, {D10}
{D5} {D6} {D1, D3} {D3}
no yes outlook yes no wind yes

yes
true false
sunny rain o
o’cast
cast {D14} {D4}
{D1} {D3}
no null yes no yes

CÂY QUYẾT ĐỊNH ĐƠN GIẢN
outlook
sunny o’cast rain

{D1, D2, D8 {D3, D7, D12, D13} {D4, D5, D6, D10, D14}
D9, D11}
humidity yes wind
high normal strong weak

{D1, D2, D8} {D9, D11} {D6, D14} {D4, D5, D10}
no yes
no yes
Cây sẽ đơn giản hơn nếu “outlook” được chọn làm gốc.
Cá h chọn thuộc tính tốt
Cách ố để ế định?
ể tách nút quyết
THUỘC TÍNH NÀO LÀ TỐT NHẤT?
Nút quyếtế định S cóó 29 mẫu

ẫ thu
th ộc lớp cộng (+)
( ) và
à 35 mẫu
ẫ thuộc lớp trừ
(-), ta ký hiệu là [29+, 35-]
Nếu các thuộc tính A1 và A2 ((mỗi thuộc tính có 2 g
giá trị)) tách S thành các
nút con với tỷ lệ của mẫu dương và mẫu âm như sau, thuộc tính nào là tốt
hơn?
[29+, 35 -] [29 35 -]]

[29+,
A1 = ? A2 = ?
[21+, 5-] [8+, 30 -] [

[18+, 33-]] [11+,
[ 2-]]
Day Outloook Temp Humidity Wind PlayTenni
s
D1 Sunny Hot High Weak No
ĐỘ ĐO V
D6 Rain Cool Normal Strong No
Outlook(O): D7 Overcast Cool Normal Strong Yes

V(O=Sunny) = (2/5,3/5) D9 Sunny Cool Normal Weak Yes
V(O=Overcast)=(4/4,0/4)=(1,0) D10 Rain Mild Normal Weak Yes
V(O=Rain)=(3/5 2/5)
V(O=Rain)=(3/5,2/5) D11 Sunny Mild Normal Strong Yes
Temp(T): D13 Overcast Hot Normal Weak Yes
V(T=Hot) = (2/4,2/4) D14 Rain Mild High Strong No
V(T C l) (3/4 1/4)

V(T=Cool)=(3/4,1/4)
V(T=Mild)=(4/6,2/6)  Chọn Outlook vì số mẫu ổn định
Humidity(H): nhiều nhất.
V(H Hi h) = (3/7
V(H=High) (3/7,4/7)
4/7)
V(H=Normal)=(6/7,1/7)
Wind(W):
V(W=Weak) = (3/6,3/6)
V(W=Strong)=(6/8,2/8)
ĐỘ ĐO V
{D1 D2,
{D1, D2 ..., D14} [9+,
[9+ 5-]
Outlook
S
Sunny O
Overcast R
Rain
i
{D1, D2, D8, D9, D11} {D3, D7, D12, D13} {D4, D5, D6, D10, D14}
[2+, 3
3-]] [4+, 0
0-]] [3+, 2
2-]]
? Yes ?
Day Temp Humidity Wind PlayTennis
D1
D4 Mild
Hot High Weak Yes
No
D2
D5 Cool
Hot Normal
High Strong
Weak Yes
No
CÂY QUYẾT ĐỊNH CUỐI CÙNG D8

D6
D10
D9
Mild
Cool
Mild
Cool
Normal
High
Normal
Strong
Weak
Weak
No
Yes
D14
D11 Mild Normal
High Strong Yes
No
Outlook
Sunny Overcast Rain

{D1, D2, D8 {D3, D7, D12, D13} {D4, D5, D6, D10, D14}
D9, D11}
Humidity yes Wind
high normal Strong Weak

{D1, D2, D8} {D9, D11} {D6, D14} {D4, D5, D10}
no yes
no yes
Từ cây ta có 5 luật:
1. If Outlook = Overcast then Yes
2. If Outlook = Sunny and Humidity = High then No
3. If Outlook = Sunny and Humidity = Normal then Yes
4
4. If Outlook = Rain and Wind = Strong then No
5. If Outlook = Rain and Wind= Weak then Yes
ENTROPY
Entropy đặc trưng độ hỗn tạp (tinh khiết) của tập bất kỳ các ví dụ.
S là tập các mẫu thuộc lớp âm và lớp dương
P là tỷ lệ các mẫu thuộc lớp dương trong S
p là tỷ lệ các mẫu thuộc lớp âm trong S
Entropy(S)
py( ) = -p
p log
g2p -p
p log
g2p
VÍ DỤ
Ụ
Từ 14 mẫu của bảng Play-Tennis, 9 thuộc lớp dương và 5 mẫu âm (ký

hiệu là [9+,
[9+ 5-]
5 ])
Entropy([9+, 5-] ) = - (9/14)log2(9/14) - (5/14)log2(5/14)

= 0.940
0 940
Lưu ý:
1. Entropy là 0 nếu tất cả các thành viên của S đều thuộc về cùng một lớp.
Ví dụ, nếu
ế tất
ấ cả các thành viên đều
ề thuộc vềề lớp dương thì :
Entropy(S) = -N/N. log2(N/N) - 0 = -1.0 – 0 = 0 (N là số mẫu) .
22. Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộc
lớp dương và lớp âm. Nếu các số này là khác nhau, entropy sẽ nằm giữa 0 và
1.
INFORMATION GAIN
Ta định nghĩa độ đo information gain, phản ánh mức độ hiệu

quả của một thuộc tính trong phân lớp. Đó là sự rút giảm
mong muốn của entropy gây ra bởi sự phân hoạch các ví dụ
theo thuộc tính này
Sv
Gain(S A)  Entropy(S) 
Gain(S, 
vValue(A) S
Entropy(S v )
Giá trị Value(A) là tập các giá trị có thể cho thuộc tính A, và
Sv là tập con của S mà A nhận giá trị v.
INFORMATION GAIN
Values(Wind) = {Weak,
{Weak Strong}
Strong}, S = [9+,
[9+ 5-]
5]
Sweak là nút con với trị “weak” là [6+, 2-]
Sstrong là nút
út con với
ới trị
t ị “strong”,
“t ” là [3+,
[3+ 3-]
3]
Sv
G i (S Wind)
Gain(S, Wi d) = Entropy(S)
E t (S) - 
v{Weak, Strong} S
Entropy(S v )
= Entropy(S) - (8/14)Entropy(Sweak)
- (6/14)Entropy(S
(6/ ) (SStrong)
= 0.940 - (8/14)0.811 - (6/14)1.00

= 0.048
0 048
Thuộc tính nào là phân lớp tốt nhất?
S:[9+, 5-] S:[9+, 5-]

E = 0.940 E = 0.940
H idi
Humidity Wind
High Normal Weak Strong
[3+, 4-] [6+, 1-] [6+, 2-] [3+, 3-]

E = 0.985
0 985 E = 0.592
0 592 E=0 0.811
811 E = 1.00
1 00
Gain(S, Humidity) Gain(S, Wind)

= .940 - (7/14).985 - (7/14).592 = .940 - (8/14).811 - (6/14)1.00
= .151 = .048
INFORMATION GAIN CỦA TẤT CẢ CÁC
THUỘC TÍNH
Í
Gain (S, Outlook) = 0.246

Gain (S, Humidity) = 0.151
G i (S,
Gain (S Wind)
Wi d) = 0.048
0 048
Gain ((S,, Temperature)
p ) = 0.029
Bước kế tiếp trong tiến trình tăng trưởng
trên cây quyết định
{D1 D2,
{D1, D2 ..., D14} [9+,
[9+ 5-]
Outlook
S
Sunny O
Overcast R
Rain
i
{D1, D2, D8, D9, D11} {D3, D7, D12, D13} {D4, D5, D6, D10, D14}
[2+, 3
3-]] [4+, 0
0-]] [3+, 2
2-]]
? Yes ?
Thuộc tính nào cần được kiểm tra?

Ssunny = {D1, D2, D8, D9, D11}
Gain(Ssunny, Humidity) = .970 - (3/5)0.0 - (2/5)0.0 = 0.970
Gain(Ssunny, Temperature) = .970
970 - (2/5)0.0
(2/5)0 0 - (2/5)1.0
(2/5)1 0 - (1/5)0.0
(1/5)0 0 = 0.570
0 570
Gain(Ssunny, Wind) = .970 - (2/5)1.0 - (3/5)0.918 = 0.019
ĐIỀU KIỆN DỪNG
11. Từng thuộc tính đã được đưa vào dọc theo con đường trên
cây
2. Các mẫu huấn luyện ứng với nút lá có cùng giá trị thuộc tính
đích (chẳng hạn, chúng có entropy bằng 0)
Lưu ý: Thuật toán ID3 dùng Information Gain và C4.5,

C4 5 thuật
toán được phát triển sau nó, dùng Gain Ratio (một biến thể
của Information Gain)
Các thuộc tính với nhiều giá trị
 Nếu thuộc tính có nhiều giá trị (ví dụ, các ngày trong tháng)
ID3 sẽ chọn nó
 C4.5 dùng GainRatio

Gain(S, A)
GainRatio(( S, A)) 
SplitInformation(S, A)
Si Si
mation(S A)   
SplitInformation(S, log2
S i Value ( A ) S S
Ví dụ về Ratio Gain
 Ta có:
Gain (S, O) = 0.246;
SplitInfo(S,O) = -5/14 log25/14 – 4/14log24/14 – 5/14log25/14  1.58
RatioGain(S,O)
( , ) = 0.246/1.58
/  0.156
RatioGain (S, H) = 0.151/1 0.151 Day Outloook Temp Humidity Wind PlayTenni
RatioGain(S, W) = 0.048/0.985  0.049 D1 Sunny Hot High Weak

s
No
RatioGain(S, T) = 0.029/1.56  0.003 D2 Sunny Hot High Strong No
D6 Rain Cool Normal Strong No
PHÂN
Â LỚP BAYES
PHÂN LỚP BAYES
 Bộ phân lớp Bayes có thểể dự báo các xác suất

ấ là
thành viên của lớp, chẳng hạn xác suất mẫu cho
trước thuộc về một lớp xác định
 Bộ phân lớp Naïve Bayes có thể so sánh đuợc về
công năng với Bộ phân lớp cây quyết ế định và mạng
nơron. Chúng giả định các thuộc tính là độc lập nhau
(độc lập điều kiện lớp)
ĐỊNH LÝ BAYES
 X là mẫu dữ liệu chưa biết nhãn lớpp
 H là giả thuyết sao cho X thuộc về lớp C
 Ấn định xác suất hậu nghiệm (posterior probability)
P(H|X) sao cho H đúng khi cho trước quan sát X (H
conditioned on X)
 Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tả
bằ màu
bằng à sắc
ắ vàà hình
hì h dáng.
dá
- Giả sử X là màu đỏ và hình tròn
- H là giả thuyết mà X là quả táo
- Thì P(H|X) phản ánh độ tin cậy X là quả táo khi biết
trước X có màu đỏ và hình tròn
Đị h lý Bayes
Định B
 P(X|H) là xác suất
ấ hậu nghiệm của X có điều
ề kiện
trên. Định lý Bayes:
P(X | H)P(H)
P(H | X) 
P(X)
 Khi có n giả thuyết
P(X | Hi )P(Hi )
P(Hi | X) 

n
j1
P(X | H j )P(H j )
PHÂN LỚP NAÏVE BAYESIAN (NBC)
 Mỗi mẫu dữ liệu ệ được
ợ biểu diễn bằngg X= ((x1, x2,,…,, xn)
với các thuộc tính A1, A2,…, An
 Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. NBC
gán
á X vào
à Ci khi vàà chỉ ới 1  j  m,
hỉ khi P(Ci|X) > P(Cj|X) với
j  i. Do vậy, chúng ta cực đại P(Ci|X). Lớp Ci sao cho
P(Ci|X) là cực đại được gọi là giả thuyết hậu nghiệm cực
đại (maximum posterior hypothesis). Theo định lý Bayes
P(X | C i )P(C i )
P(C i | X) 
P(X)
PHÂN LỚP NAÏVE BAYESIAN
 DoP(X) là hằng cho tất cả các lớp, chỉ cần cực đại
P(X|Ci) P(Ci). Nếu chưa biết P(Ci) cần giả định
P(C1)=P(C2)=…= P(Cm) và chúng ta sẽ cực đại
P(X|Ci). Ngược lại, ta cực đại P(X|Ci) P(Ci)
 Nếu
m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci).
NBC giả định độc lập điều kiện lớp
n
P(X | C i )   P(x k | C i )
k 1
 Có thể
hể phỏng
h tính
í h P(x1|Ci), …, P(xn|Ci) từ các
á mẫu
ẫ huấn
h ấ
luyện
Nếu Ak được phân lớp thì P(xk|Ci) = sik/si với sik là
số mẫu huấn luyện của Ci có trị xk cho Ak và si là số các
mẫu thuộc về lớp Ci
Nếu Ak là liên tục thì nó được giả định có phân bố

Gaussian
(x k μCi ) 2

1 2σ 2Ci
P(x k | C i )  g(x k , μCi , σ Ci )  e
2 Ci
2πσ
 Để pphân lớp
p mẫu chưa biết X,, ta tính P(X|C
( | i)
P(Ci) cho từng Ci. Sau đó mẫu X được gán vào Ci
iff P(Ci|X) > P(Cj|X) for 1  j  m, j  i
 Nói cách khác, NBC gán X vào lớp Ci sao cho

P(X|Ci) P(Ci) là cực đại
VÍ DỤ: XÉT CSDL THỜI TIẾT
Day Outloook Temp Humidity Wind Play?
D1 S
Sunny H t
Hot Hi h
High W k
Weak N
No
D6 Rain Cool Normal Medium No
DỰ BÁO
Á NHÃN
Ã LỚP
Ớ VỚI
Ớ PHÂN Ớ BAYESIAN
Â LỚP
 Với X = (O = Sunny, Temp = Hot, Humidity = Normal, Wind = Weak)
Yes No
P(Play
( = yes)) = 9/14 P(Play
( = no)) = 5/14
P(O = Sunny| Play = Yes) = 2/9 P(O = Sunny| Play = No) = 3/5
P(T = Hot|Play
H t|Pl = Yes)
Y ) = 2/9 P(T = Hot
H t | Pl
Play = No)
N ) = 2/5
P(H = Normal | Play = Yes) = 6/9 P(H = Normal | Play = No) = 1/5
P(W = Weak | Play = Yes) = 6/9 P(W = Weak | Play = No) = 2/5
9*2*2*6*6 8 5 * 3 * 2 *1 * 2 6
P(Yes | X) =  P(No | X) = 
14 * 9 * 9 * 9 * 9 567 14 * 5 * 5 * 5 * 5 875
THUẬT TOÁN ILA
(INDUCTIVE LEARNING ALGORITHM)
Böôùc 1:
Böôc
Chia baûng coù chöùa m maãu thaønh n baûng con. Moät baûng öùng vôùi moät giaù trò coù
theå coù cuûa thuoäc tính lôùp. (Töø böôùc 2 ñeán böôùc 8 seõ ñuôïc laëp laïi cho moãi baûng)
Böôùc 2:
Khôûi taïo soá löôïng thuoäc tính keát hôïp j vôùi j = 1.
Böôùc 3:
Vôùi moãi baûng con ñang xeùt, phaân chia caùc thuoäc tính cuûa noù thaønh moät danh
saùùch caùùc thuoä
h äc tính
í h keá
k át hôï
h p, moããi thaø
h ønh phaà
h àn cuûûa danh
d h saùùch coùù j thuoä
h äc tính
í h phaâ
h ân
bieät.
Böôùc 4:
Vôii moi
Vôù moãi ket
keát hôï
hôp p cac
caùc thuoäc tính trong danh sach
saùch tren,
treân, ñem
ñeám so
soá lan
laàn xuat
xuaát hieän cac
caùc
giaù trò cho caùc thuoäc tính trong keát hôïp ñoù ôû caùc doøng chöa bò khoùa cuûa baûng
ñang xeùt nhöng noù khoâng ñöôïc xuaát hieän cuøng giaù trò ôû nhöõng baûng con khaùc.
Choïn ra moät keát hôïp trong danh saùch sao cho noù coù giaù trò töông öùng xuaát hieän
nhieàu nhaát vaø ñöôïc ggoïi laø Max_combination.
THUẬT TOÁN ILA
Böôùc 5:
Böôc
If max_combination = 0 thì j = j + 1 quay laïi böôùc 3.
Böôùc 6:
Khoaa cac
Khoù caùc dong
doøng ô
ôû bang
baûng con ñang xet
xeùt ma
maø taï
taii ño
ñoù no
noù co
coù gia
giaù trò bang
baèng vôi
vôùi gia
giaù trò taï
tao o
ra max_combination.
Böôùc 7:
Theâm vaøo R luaät môùi vôùi giaû thieát laø max_combination caùc thuoäc tính vaø giaù trò
töông öùùng phaâ
h ân bieä
bi ät vaøø keá
k át noáái caùùc boä
b ä naøøy baè
b èng AND,
AND keá
k át luaä
l än cuûûa luaä
l ät laø
l ø giaù
i ù
trò cuûa thuoäc tính quyeát ñònh töông öùng vôùi baûng con naøy.
Böôùc 8:
Neáu tat
Neu taát ca
caû cac
caùc dong
doøng ñeu
ñeàu khoa
khoùa
 Neáu coøn baûng con thì qua baûng con tieáp theo vaø quay laïi böôùc 2.
 Ngöôïc laïi chaám döùt thuaät toaùn

Ngöôïc laïi (nghóa laø vaãn coøn doøng chöa khoùa trong baûng con ñang xeùt) thì quay laïi böôùc 4.
VÍ DỤ MINH HỌA ILA
STT Kích cỡ Màu sắc Hình dáng Quyết định

1 Vừa Xanh dương Hộp Mua
2 Nhỏ Đỏ Nón Không mua
3 Nhỏ Đỏ Cầu Mua
4 Lớn Đỏ Nón Không mua
5 Lớn Xanh lá Trụ Mua
6 Lớn Đỏ Trụ Không mua
7 Lớn Xanh lá Cầu Mua
VÍ DỤ ILA (TT)
1 Vừa Xanh dương Hộp Mua
5 Lớn Xanh lá Trụ Mua

VÍ DỤ ILA (TT)
1 Vừ
Vừa X hd
Xanh dương Hộ
Hộp M
Mua
5 Lớn Xanh lá ụ
Trụ Mua

2 Nhỏ Chọn thuộc
Đỏ tính Màu sắc Nón Không mua
với
ới giá
iá ttrịị Xanh
X h lá
VÍ DỤ ILA (TT)
1 Vừ
Vừa X hd
Xanh dương Hộ
Hộp M
Mua
IF Màu
Mà sắc
ắ = Xanh
X h lá THEN Q
Quyết
ết đị
định
h= M
Mua

VÍ DỤ ILA (TT)
3 Nhỏ Đỏ Cầ
Cầu M
Mua
IF Màu sắc = Xanh lá THEN Quyết định = Mua

IF Kích cỡ = Vừa THEN Quyết định = Mua

VÍ DỤ ILA (TT)
IF Màu sắc
ắ = Xanh lá THEN Quyết
Q ế định = Mua
IF Kích cỡ = Vừa THEN Quyết định = Mua
IF Hình dáng
dáng= Cầu THEN Quyết định = Mua

VÍ DỤ ILA (TT)
1 Vừ
Vừa X hd
Xanh dương Hộ
Hộp M
Mua
Trụ Mua

IF Hình dáng = Nón THEN Quyết
ế định = Không mua
VÍ DỤ ILA (TT)
1 Vừ
Vừa X hd
Xanh dương Hộ
Hộp M
Mua
Trụ Mua

IF Hình dáng = Nón THEN Quyết định = Không mua

VÍ DỤ ILA (TT)
1 Vừ
Vừa X hd
Xanh dương Hộ
Hộp M
Mua
Trụ Mua

IF Hình dáng = Nón THEN Quyết định = Không mua

IF Kích cỡ = Lớn AND Màu sắc = Đỏ THEN Quyết
y định
ị = Không
g mua

PhanLop (Compatib&#

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

PhanLop (Compatib&#

Uploaded by

Copyright:

Available Formats

PHÂN

 Phân lớp và dự đoán?

 Quy nạp trên cây quyết

 Có thể dùng phân lớp và dự đoán để xác lập mô

 Làm sạch dữ liệu

 Phân tích liên quan (chọn đặc trưng)

 Biến đổi dữ liệu

5. Tỉa các nút lá không ổn định

 Bắt đầu từ nút đơn biểu diễn tất cả các mẫu

D1 Sunny Hot High Weak No

outlook wind outlook

sunny rain o’cast true false sunny o’cast rain

yes wind yes no humidity wind yes humidity

true false high normal true false high normal

no yes outlook yes no wind yes

no null yes no yes

sunny o’cast rain

humidity yes wind

high normal strong weak

Nút quyếtế định S cóó 29 mẫu

[29+, 35 -] [29 35 -]]

[21+, 5-] [8+, 30 -] [

D1 Sunny Hot High Weak No

Outlook(O): D7 Overcast Cool Normal Strong Yes

V(T=Hot) = (2/4,2/4) D14 Rain Mild High Strong No

V(T C l) (3/4 1/4)

CÂY QUYẾT ĐỊNH CUỐI CÙNG D8

Sunny Overcast Rain

Humidity yes Wind

high normal Strong Weak

S là tập các mẫu thuộc lớp âm và lớp dương

P là tỷ lệ các mẫu thuộc lớp dương trong S

p là tỷ lệ các mẫu thuộc lớp âm trong S

Từ 14 mẫu của bảng Play-Tennis, 9 thuộc lớp dương và 5 mẫu âm (ký

Entropy([9+, 5-] ) = - (9/14)log2(9/14) - (5/14)log2(5/14)

Ta định nghĩa độ đo information gain, phản ánh mức độ hiệu

= 0.940 - (8/14)0.811 - (6/14)1.00

S:[9+, 5-] S:[9+, 5-]

High Normal Weak Strong

[3+, 4-] [6+, 1-] [6+, 2-] [3+, 3-]

Gain(S, Humidity) Gain(S, Wind)

Gain (S, Outlook) = 0.246

Thuộc tính nào cần được kiểm tra?

Lưu ý: Thuật toán ID3 dùng Information Gain và C4.5,

 C4.5 dùng GainRatio

RatioGain(S, W) = 0.048/0.985  0.049 D1 Sunny Hot High Weak

 Bộ phân lớp Bayes có thểể dự báo các xác suất

Nếu Ak là liên tục thì nó được giả định có phân bố

 Nói cách khác, NBC gán X vào lớp Ci sao cho

 Với X = (O = Sunny, Temp = Hot, Humidity = Normal, Wind = Weak)

 Ngöôïc laïi chaám döùt thuaät toaùn

STT Kích cỡ Màu sắc Hình dáng Quyết định

STT Kích cỡ Màu sắc Hình dáng Quyết định

STT Kích cỡ Màu sắc Hình dáng Quyết định

STT Kích cỡ Màu sắc Hình dáng Quyết định

IF Màu sắc = Xanh lá THEN Quyết định = Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định

STT Kích cỡ Màu sắc Hình dáng Quyết định

STT Kích cỡ Màu sắc Hình dáng Quyết định

STT Kích cỡ Màu sắc Hình dáng Quyết định

IF Hình dáng = Nón THEN Quyết định = Không mua

STT Kích cỡ Màu sắc Hình dáng Quyết định

IF Hình dáng = Nón THEN Quyết định = Không mua