Professional Documents
Culture Documents
PhanLop (Compatib&#
PhanLop (Compatib&#
 LỚP VÀ
À DỰ ĐOÁN
Á
NỘI DUNG
Các
Cá phương
h pháp
há phân
hâ lớlớp khác
khá
PHÂN LớP LÀ GÌ ? Dự ĐOÁN LÀ GÌ?
Phân lớp
Phâ lớ dữ liệu
liệ là tiến
tiế
trình có 2 bước
Huấn luyện: Dữ liệu
huấn luyệnyệ được
ợ p phân
tích bởi thuật tóan phân
lớp ( có thuộc tính nhãn
lớp) để tạo ra bộ phân lớp
Phân lớp: Dữ liệu kiểm
tra được dùng để ước
lượng độ chính xác của bộ
phân lớp. Nếu độ chính
xác là chấp nhận được thì
có thể dùng bộ phân lớp
để phân lớp các mẫu dữ
liệu mới.
Phân lớp là gì? Dự đoán là gì ?
Độộ chính
hí h xác
á (accuracy)
( ) của
ủ bộ phân
hâ lớp
lớ trên
ê
tập kiểm tra cho trước là phần trăm của các
mẫu trong tập kiểm tra được bộ phân lớp xếp
lớp đúng
correctly
tl classified t t sample
l ifi d test l
Accuracy
total number of test sample
CHUẨN BỊ DỮ LIỆU
Độ chính
hí h xác
á của
ủ dựd đoán:
đ á khả năng
ă bộ phân
hâ
lớp dự đoán đúng dữ liệu chưa biết trước nhãn
Tính bền vững: khả năng của bộ phân lớp thực
hiện dự đoán đúng với dữ liệu nhiễu hay thiếu
giá trị
Tính kích cỡ (scalability): khả năng tạo bộ
phân lớp hiệu quả với số lượng dữ liệu lớn
Khả năngă diễ giải:
diễn iải bộ phân
hâ lớp
lớ cung cấpấ tri
t i
thức có thể hiểu được
CÂY QUYẾT ĐỊNH
CÂY QUYẾT ĐỊNH
Câyyq
quyết
y định là cấu trúc cây y sao cho:
Mỗi nút trong ứng với một phép kiểm tra trên
một thuộc tính
Mỗi nhánh biểu diễn kết quả phép kiểm tra
Các nút lá biểu diễn các lớp hay các phân bố lớp
Nút cao nhất trong cây là nút gốc.
CÂY QUYẾT ĐỊNH: VÍ DỤ
Cây quyết định: có mua computer? Dựa vào các thuộc tính tuổi,
sinh viên, Uy tín.
Sườn chung về quy nạp trên cây quyết định
1. Chọn
ọ thuộcộ tính “tốt nhất” theo mộtộ độ
ộ đo chọn
ọ lựaự cho trước
2. Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính
3. Sắp xếp các ví dụ học vào nút lá
4. Nếu các ví dụ được phân lớp rõ thì Stop nguợc lại lặp lại các bước 1-4 cho mỗi
nút lá
temperature
p
cool hot mild
{D5, D6, D7, D9} {D1, D2, D3, D13} {D4, D8, D10, D11,D12, D14}
outlook
no yes
no yes
Cây sẽ đơn giản hơn nếu “outlook” được chọn làm gốc.
Cá h chọn thuộc tính tốt
Cách ố để ế định?
ể tách nút quyết
THUỘC TÍNH NÀO LÀ TỐT NHẤT?
ĐỘ ĐO V
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
V(O=Rain)=(3/5 2/5)
V(O=Rain)=(3/5,2/5) D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
Temp(T): D13 Overcast Hot Normal Weak Yes
S
Sunny O
Overcast R
Rain
i
{D1, D2, D8, D9, D11} {D3, D7, D12, D13} {D4, D5, D6, D10, D14}
[2+, 3
3-]] [4+, 0
0-]] [3+, 2
2-]]
? Yes ?
Day Temp Humidity Wind PlayTennis
D1
D4 Mild
Hot High Weak Yes
No
D2
D5 Cool
Hot Normal
High Strong
Weak Yes
No
Outlook
no yes
no yes
Từ cây ta có 5 luật:
1. If Outlook = Overcast then Yes
2. If Outlook = Sunny and Humidity = High then No
3. If Outlook = Sunny and Humidity = Normal then Yes
4
4. If Outlook = Rain and Wind = Strong then No
5. If Outlook = Rain and Wind= Weak then Yes
ENTROPY
Entropy đặc trưng độ hỗn tạp (tinh khiết) của tập bất kỳ các ví dụ.
Entropy(S)
py( ) = -p
p log
g2p -p
p log
g2p
VÍ DỤ
Ụ
Lưu ý:
1. Entropy là 0 nếu tất cả các thành viên của S đều thuộc về cùng một lớp.
Ví dụ, nếu
ế tất
ấ cả các thành viên đều
ề thuộc vềề lớp dương thì :
Entropy(S) = -N/N. log2(N/N) - 0 = -1.0 – 0 = 0 (N là số mẫu) .
22. Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộc
lớp dương và lớp âm. Nếu các số này là khác nhau, entropy sẽ nằm giữa 0 và
1.
INFORMATION GAIN
Sv
Gain(S A) Entropy(S)
Gain(S,
vValue(A) S
Entropy(S v )
Giá trị Value(A) là tập các giá trị có thể cho thuộc tính A, và
Sv là tập con của S mà A nhận giá trị v.
INFORMATION GAIN
Values(Wind) = {Weak,
{Weak Strong}
Strong}, S = [9+,
[9+ 5-]
5]
Sweak là nút con với trị “weak” là [6+, 2-]
Sstrong là nút
út con với
ới trị
t ị “strong”,
“t ” là [3+,
[3+ 3-]
3]
Sv
G i (S Wind)
Gain(S, Wi d) = Entropy(S)
E t (S) -
v{Weak, Strong} S
Entropy(S v )
= Entropy(S) - (8/14)Entropy(Sweak)
- (6/14)Entropy(S
(6/ ) (SStrong)
H idi
Humidity Wind
{D1 D2,
{D1, D2 ..., D14} [9+,
[9+ 5-]
Outlook
S
Sunny O
Overcast R
Rain
i
{D1, D2, D8, D9, D11} {D3, D7, D12, D13} {D4, D5, D6, D10, D14}
[2+, 3
3-]] [4+, 0
0-]] [3+, 2
2-]]
? Yes ?
11. Từng thuộc tính đã được đưa vào dọc theo con đường trên
cây
2. Các mẫu huấn luyện ứng với nút lá có cùng giá trị thuộc tính
đích (chẳng hạn, chúng có entropy bằng 0)
Nếu thuộc tính có nhiều giá trị (ví dụ, các ngày trong tháng)
ID3 sẽ chọn nó
No
RatioGain(S, T) = 0.029/1.56 0.003 D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rain Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
PHÂN
 LỚP BAYES
PHÂN LỚP BAYES
P(X | C i )P(C i )
P(C i | X)
P(X)
PHÂN LỚP NAÏVE BAYESIAN
DoP(X) là hằng cho tất cả các lớp, chỉ cần cực đại
P(X|Ci) P(Ci). Nếu chưa biết P(Ci) cần giả định
P(C1)=P(C2)=…= P(Cm) và chúng ta sẽ cực đại
P(X|Ci). Ngược lại, ta cực đại P(X|Ci) P(Ci)
Nếu
m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci).
NBC giả định độc lập điều kiện lớp
n
P(X | C i ) P(x k | C i )
k 1
PHÂN LỚP NAÏVE BAYESIAN
Có thể
hể phỏng
h tính
í h P(x1|Ci), …, P(xn|Ci) từ các
á mẫu
ẫ huấn
h ấ
luyện
Nếu Ak được phân lớp thì P(xk|Ci) = sik/si với sik là
số mẫu huấn luyện của Ci có trị xk cho Ak và si là số các
mẫu thuộc về lớp Ci
Để pphân lớp
p mẫu chưa biết X,, ta tính P(X|C
( | i)
P(Ci) cho từng Ci. Sau đó mẫu X được gán vào Ci
iff P(Ci|X) > P(Cj|X) for 1 j m, j i
Yes No
P(Play
( = yes)) = 9/14 P(Play
( = no)) = 5/14
P(O = Sunny| Play = Yes) = 2/9 P(O = Sunny| Play = No) = 3/5
P(T = Hot|Play
H t|Pl = Yes)
Y ) = 2/9 P(T = Hot
H t | Pl
Play = No)
N ) = 2/5
P(H = Normal | Play = Yes) = 6/9 P(H = Normal | Play = No) = 1/5
P(W = Weak | Play = Yes) = 6/9 P(W = Weak | Play = No) = 2/5
9*2*2*6*6 8 5 * 3 * 2 *1 * 2 6
P(Yes | X) = P(No | X) =
14 * 9 * 9 * 9 * 9 567 14 * 5 * 5 * 5 * 5 875
THUẬT TOÁN ILA
(INDUCTIVE LEARNING ALGORITHM)
Böôùc 1:
Böôc
Chia baûng coù chöùa m maãu thaønh n baûng con. Moät baûng öùng vôùi moät giaù trò coù
theå coù cuûa thuoäc tính lôùp. (Töø böôùc 2 ñeán böôùc 8 seõ ñuôïc laëp laïi cho moãi baûng)
Böôùc 2:
Khôûi taïo soá löôïng thuoäc tính keát hôïp j vôùi j = 1.
Böôùc 3:
Vôùi moãi baûng con ñang xeùt, phaân chia caùc thuoäc tính cuûa noù thaønh moät danh
saùùch caùùc thuoä
h äc tính
í h keá
k át hôï
h p, moããi thaø
h ønh phaà
h àn cuûûa danh
d h saùùch coùù j thuoä
h äc tính
í h phaâ
h ân
bieät.
Böôùc 4:
Vôii moi
Vôù moãi ket
keát hôï
hôp p cac
caùc thuoäc tính trong danh sach
saùch tren,
treân, ñem
ñeám so
soá lan
laàn xuat
xuaát hieän cac
caùc
giaù trò cho caùc thuoäc tính trong keát hôïp ñoù ôû caùc doøng chöa bò khoùa cuûa baûng
ñang xeùt nhöng noù khoâng ñöôïc xuaát hieän cuøng giaù trò ôû nhöõng baûng con khaùc.
Choïn ra moät keát hôïp trong danh saùch sao cho noù coù giaù trò töông öùng xuaát hieän
nhieàu nhaát vaø ñöôïc ggoïi laø Max_combination.
THUẬT TOÁN ILA
Böôùc 5:
Böôc
If max_combination = 0 thì j = j + 1 quay laïi böôùc 3.
Böôùc 6:
Khoaa cac
Khoù caùc dong
doøng ô
ôû bang
baûng con ñang xet
xeùt ma
maø taï
taii ño
ñoù no
noù co
coù gia
giaù trò bang
baèng vôi
vôùi gia
giaù trò taï
tao o
ra max_combination.
Böôùc 7:
Theâm vaøo R luaät môùi vôùi giaû thieát laø max_combination caùc thuoäc tính vaø giaù trò
töông öùùng phaâ
h ân bieä
bi ät vaøø keá
k át noáái caùùc boä
b ä naøøy baè
b èng AND,
AND keá
k át luaä
l än cuûûa luaä
l ät laø
l ø giaù
i ù
trò cuûa thuoäc tính quyeát ñònh töông öùng vôùi baûng con naøy.
Böôùc 8:
Neáu tat
Neu taát ca
caû cac
caùc dong
doøng ñeu
ñeàu khoa
khoùa
Neáu coøn baûng con thì qua baûng con tieáp theo vaø quay laïi böôùc 2.
IF Màu
Mà sắc
ắ = Xanh
X h lá THEN Q
Quyết
ết đị
định
h= M
Mua
IF Màu sắc
ắ = Xanh lá THEN Quyết
Q ế định = Mua
IF Kích cỡ = Vừa THEN Quyết định = Mua
IF Hình dáng
dáng= Cầu THEN Quyết định = Mua