Professional Documents
Culture Documents
Cay Quyet Dinh
Cay Quyet Dinh
Outlook
No Yes No Yes
´í dͥ
Kiʀm tra khi nào chơi golf, khi nào không chơi
Outlook
Outlook
No Yes No Yes
iʀu thͩc luɪn lý
Outlook=Sunny Ù Wind=Weak
Outlook Ù = AND = và
= OR = hoɴc
Wind No No
Strong Weak
No Yes
iʀu thͩc luɪn lý
Outlook=Sunny Wind=Weak
Outlook
No Yes No Yes
iʀu thͩc luɪn lý
(Outlook=Sunny Ù Humidity=Normal)
Outlook=Overcast
(Outlook=Rain Ù Wind=Weak)
Outlook
No Yes No Yes
ây dͱng cây quyɼt đʈnh
á Cây đưͣc thiɼt lɪp tͫ trên xu͑ng dư͛i
á R͝i rɞc hóa các thu͙c tính dɞng phi s͑
á Các mɨu huɢn luyʄn nɮm ͟ g͑c cͧa cây
á Ch͍n m͙t thu͙c tính đʀ phân chia thành
các nhánh. Thu͙c tính đưͣc ch͍n dͱa trên
đ͙ đo th͑ng kê hoɴc đ͙ đo heuristic
á Tiɼp tͥc lɴp lɞi viʄc xây dͱng cây quyɼt
đʈnh cho các nhánh
ây dͱng cây quyɼt đʈnh
á Điɾu kiʄn dͫng
Tɢt cɠ các mɨu rơi vào m͙t nút thu͙c vɾ
cùng m͙t l͛p (nút lá)
Không còn thu͙c tính nào có thʀ dùng đʀ
phân chia mɨu nͯa
Không còn lɞi mɨu nào tɞi nút
Lͱa ch͍n thu͙c tính
á Đ͙ đo đʀ lͱa ch͍n thu͙c tính: Thu͙c tính
đưͣc ch͍n là thu͙c tính có lͣi nhɢt cho quá
trình phân l͛p (tɞo ra cây nh͏ nhɢt)
á Có 2 đ͙ đo thư͝ng dùng
1. Đ͙ lͣi thông tin (Information gain)
á Giɠ sͭ tɢt cɠ các thu͙c tính dɞng phi s͑
á Có thʀ biɼn đ͕i đʀ áp dͥng cho thu͙c tính s͑
2. Chʆ s͑ Gini (Gini index)
á Giɠ sͭ tɢt cɠ các thu͙c tính dɞng s͑
á Giɠ sͭ t͓n tɞi m͙t vài giá trʈ có thʀ phân chia giá
trʈ cͧa tͫng thu͙c tính
á Có thʀ biɼn đ͕i đʀ áp dͥng cho thu͙c tính phi s͑
Đ͙ lͣi thông tin
(Information gain)
á S: s͑ lưͣng tɪp huɢn luyʄn
á Sj: s͑ các mɨu cͧa S nɮm trong l͛p Cj
v͛i j = {1, «, m}
á Thông tin cɤn biɼt đʀ phân l͛p m͙t
mɨu
:j :j
: :Ü : Ü
j : :
Đ͙ lͣi thông tin
á Thu͙c tính A có các giá trʈ {a1, a2, «,an}
á Dùng thu͙c tính A đʀ phân chia tɪp huɢn luyʄn thành V tɪp
con {S1, S2, «, SV}
á Sj : s͑ mɨu cͧa l͛p Cj thu͙c tɪp con S (A=a)
á ntropy cͧa thu͙c tính A:
V: :
:
: :
á Đ͙ lͣi thông tin dͱa trên phân nhánh bɮng thu͙c tính A:
Ü
á Tɞi m͗i cɢp, chúng ta ch͍n thu͙c tính có đ͙ lͣi l͛n nhɢt đʀ
phân nhánh cây hiʄn tɞi
´í dͥ
Õ
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak No
6 Rain Cool Normal Strong Yes
7 Overcast Cool Normal Weak No
8 Sunny Mild High Weak Yes
9 Sunny Cold Normal Weak Yes
10 Rain Mild Normal Strong Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
Đ͙ lͣi thông tin, ví dͥ
á Ta có
S = 14
m=2
C1 = ³Yes´, C2 = ³No´
S1 = 9, S2 = 5
f f
Ü 2 f 2 Ü Ü 2 f
Đ͙ lͣi thông tin, ví dͥ
Humidity
Ü Ü 2 f
High Normal
Ü Ü 2 fÜ
[3+, 4-] [6+, 1-]
±
Ghi chú: Đʀ tính log25 bɮng máy tính điʄn tͭ, nhɢn: 5 log / 2 log =
Đ͙ lͣi thông tin, ví dͥ
Wind
Ü Ü
Ü Ü
Weak Strong
Ü Ü 2
[6+, 2-] [3+, 3-]
±
Đ͙ lͣi thông tin, ví dͥ
Outlook
!
±
±
Chʆ s͑ Gini
á Chʆ s͑ Gini cͧa nút 2:
Ü
2 2
Trong đó 2 là tɤn suɢt cͧa l͛p
trong nút 2
L͛n nhɢt là 1-1/nc khi các mɨu phân b͑
đɾu trên các l͛p
Thɢp nhɢt là 0 khi các mɨu chʆ thu͙c vɾ
m͙t l͛p
´í dͥ chʆ s͑ Gini
Ü
2 2
C1 0 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1
C2 6 GINI = 1 ± (P(C1)2+P(C2)2) = 1 ± (0+1) = 0
No Yes No Yes
"#$
!
Ù
%&'&()
*
"#$
!
Ù
* + '&()
,(-
"#$
!
.(+/ -
'&()
,(-
"#$
!
Ù
+ %'&()
*
"#$
!
Ù
( !'&()
,(-
¹u điʀm cͧa cây quyɼt đʈnh
á Cây quyɼt đʈnh dʂ hiʀu
á ´iʄc chuɦn bʈ dͯ liʄu cho m͙t cây quyɼt đʈnh
là cơ bɠn hoɴc không cɤn thiɼt
á Cây quyɼt đʈnh có thʀ xͭ lý cɠ dͯ liʄu có giá
trʈ bɮng s͑ và dͯ liʄu có giá trʈ là tên thʀ loɞi
á Cây quyɼt đʈnh là m͙t mô hình h͙p trɬng
á Có thʀ thɦm đʈnh m͙t mô hình bɮng các
kiʀm tra th͑ng kê
á Cây quyɼt đʈnh có thʀ xͭ lý t͑t m͙t lưͣng dͯ
liʄu l͛n trong th͝i gian ngɬn