Professional Documents
Culture Documents
Decision tree
thanh trinh
thanh.trinh@phenikaa-uni.edu.vn
Faculty of computer science, Phenikaa university
Nội dung
• Thế nào là phân lớp
• Cây quyết định
• Xây dựng cây quyết định
• Thuật toán xây dựng cây quyết định
• Các vấn đề gặp phải khi xây dựng cây
• Kết luận
Thế nào là Phân lớp?
• Thế nào là phân lớp
• Cây quyết định là gì
• Giới thiệu về cây quyết định
• Xây dựng cây quyết định
• Các thuật toán xây dựng cây quyết định
• Các vấn đề gặp phải khi xây dựng cây
• Kết luận
Phân lớp là gì?
• Là một quá trình của việc chia các lớp dữ liệu thành các nhóm hay loại
khác nhau bằng việc gắn nhãn.
• Là kỹ thuật của việc phân loại các quan sát (mẫu) thành các loại khác
nhau. Vậy về cơ bản, chúng ta xử lý dữ liệu, phân tích dữ liệu dựa trên
một số điều kiện và cuối cùng chúng ta phân chia dữ liệu đấy thành
các loại hay nhóm.
Một số thuật toán phân lớp
• Cây quyết định
• Random forest
• SVM
• KNN
• Naïve bayes
• ….
Cây quyết định là một biểu đồ
được sử dụng để quyết định một
Cây quyết định quá trình hành động. Mỗi nhánh
của cây thể hiện một quyết định
khả thi.
• Màu nâu đỏ: chính là gốc và nốt quyêt định Lương 30
Triệu
• Màu xanh chính là các nốt lá Yes No
8 tiếng Không
nhận việc
Yes No
3 tháng
tăng lương
Nhận 1 lần
việc
No
Yes
Nhận Không
việc nhận việc
Màu sắc Đường kính Khối lượng Loại quả
Vúa sữa Ổi
• Cây quyết định có thể được minh họa bằng?
Sunny rainy
overcast
Temp.
no humidity yes
high normal
no yes
Outlook
Sunny rainy
overcast
Temp. yes
no humidity yes
high normal
no yes
Outlook
Sunny rainy
overcast
Sunny rainy
overcast
no yes no yes
Entropy:
- Đo lường sự hỗn loạn hay tính ngẫu nhiên hay độ
nhiễu của một nhóm dữ liệu (a segment).
- Entropy cao → nhóm có độ hỗn loạn dữ liệu cao
(không theo quy luật, trật tự),
- Entropy càng thấp → dữ liệu của nhóm càng có Entropy thông tin mô tả mức độ hỗn loạn
trong một tín hiệu lấy từ một sự kiện ngẫu
trật tự→ Phân loại tốt nhiên. Nói cách khác, entropy cũng chỉ ra
có bao nhiêu thông tin trong tín hiệu, với
Information Gain: thông tin là các phần không hỗn loạn ngẫu
- Đo lường độ giảm của entropy khi phân nhóm dữ nhiên của tín hiệu.
• IG (S, outlook) = 0.247; IG(S, temp.) = 0.029 ; IG(S,humidity) = 0.152; IG(S,windy) = 0.048;
• Vậy chọn đặc trưng outlook là nốt chia đầu tiên (nốt gốc)
Outlook
Sunny rainy
overcast
Humidity
high normal
• no yes
Outlook
no yes no yes
Gain Ratio and Intrinsic Information
• C4.5 Dùng gain ratio để chọn ra đặc trưng tốt nhất
• Intrinsic information: sự phân bố của các mẫu vào các nhánh
|S | |S |
IntrinsicInfo(S , A) − i log i .
|S| 2 |S |
• Gain ratio (Quinlan’86) :
GainRatio(S, A) = Gain(S, A) .
IntrinsicInfo(S, A)
37
Gain Ratios cho các đặc trưng
Intrinsic infor (S, outlook)= 5/14 * log (5/14) + 4/14 *log (4/14)+ 5/14 *log(5/14) = 1.577
Outlook Temperature
Humidity Windy
38
Outlook Outlook
Sunny rainy
Sunny rainy overcast
overcast
Humidity yes windy
Temp. yes Temp.
high true
normal false
hot mild cool mild cool
no yes no yes
no humidity yes humidity windy
high normal high normal true false
true false
no yes
Ngay 15: Thời tiết = {Outlook = rainy, Temp = hot, Humidity = high, Windy = false} Play = YES or NO ???
Ngày 16: Thời tiết = {rainy, mild, normal, true} Play = YES or NO ???
• Mộ số vấn đề khi xây dựng cây:
• - Cây quá lớn (quá nhiều nhánh)
• - Phụ thuộc vào dữ liệu training khi xây dựng mô hình
• - Overfitting
Weather Data with ID code
ID Outlook Temperature Humidity Windy Play?
A sunny hot high false No
B sunny hot high true No
C overcast hot high false Yes
D rain mild high false Yes
E rain cool normal false Yes
F rain cool normal true No
G overcast cool normal true Yes
H sunny mild high false No
I sunny cool normal false Yes
J rain mild normal false Yes
K sunny mild normal true Yes
L overcast mild high true Yes
M overcast hot normal false Yes
N rain mild high true No
41
Chia cho thuộc tính ID
Overfitting : FAIL
42
Kết luận:
• Được sử dụng rộng rãi trong lĩnh vực khai thác dữ liệu
• Được phát triển trong các mô hình thống kê và học máy
• Được sử dụng để xây dựng các mô hình phân lớp, dự báo và hồi quy
• Điểm mạnh:
• Dễ hiểu, dễ giải thích, dễ minh họa.
• Dùng cho cả dữ liệu: Category, và dạng số
• Không có tham số
• Điểm yếu:
• Overfitting
• High variance
• Low bias