Professional Documents
Culture Documents
1
NỘI DUNG
2
I. BÀI TOÁN PHÂN LỚP
• Cho một tập mẫu dữ liệu D ={ (xi, Ci), i = 1,..,N }, xi là một véc tơ n
chiều có dạng (xi1, xi2,.., xin), xij Uj là miền xác định của các biến
(thuộc tính) 𝔛j của bài toán, với j = 1,..,n, Ci C tập các nhãn có m
lớp, i = 1,.., m, N là số mẫu dữ liệu.
• Từ tập mẫu dữ liệu D xây dựng một mô hình cho phép phân lớp
bất kỳ mẫu dữ liệu p U = U1 ... Un.
3
Minh họa bài toán phân lớp
4
Các phương pháp phân lớp cơ bản
5
II. ỨNG DỤNG PHÂN LỚP
– Trong y học: chẩn đoán bệnh (dựa trên các triệu chứng, kết
quả xét nghiệm phân loại bệnh)
6
III. PHÂN LỚP DỰA TRÊN CÂY QUYẾT
ĐỊNH
1. Cây quyết định
2. Một số khái niệm
3. Các thuật toán xây dựng cây quyết
4. Thuật toán xây dựng cây quyết định tổng quát
5. Cây quyết định ID3
6. Cây quyết định C4.5
7. Cây quyết định CART
8. Kiểu dữ liệu của thuộc tính
9. Cắt tỉa cây
10. Rừng ngẫy nhiên
7
1. Cây QĐ sinh ra từ dữ liệu
• Mỗi cây quyết định cho môt tâp quy tắc phân lớp:
• Mỗi đường di từ gốc đến là cho 1 luật
• Mỗi nút ≠ lá biểu thị một thuộc tính/điều kiện kiểm tra
• Mỗi cạnh biểu thị giá trị kiểm tra của thuộc tính tương ứng
• Mỗi lá cho một giá trị nhãn xác định bởi luật
8
Ví dụ Cây QĐ sinh ra từ dữ liệu
9
2. Một số khái niệm
• Độ trong suốt (pure) của DB: một DB có độ trong suốt cao nếu nó
có ít lớp (trong trường hợp lý tưởng là có 1 lớp).
10
3. Các thuật toán xây dựng cây quyết
định
• Dựa trên đô đo lựa chọn thuộc tính ta có các thuật toán
– ID3 - Iterative Dichotomise, tác giả J. Ross Quinlan (1970s-1980s), sử dụng độ
đo Gain Information
– C4.5 (Khắc phục nhược điểm ID3), tác giả J. Ross Quinlan (1993), sử dụng độ
đo Gain ratio (hiện tại có phiên bản C5.0)
11
4. Thuật toán xây dựng cây quyết định
tổng quát
12
5. Cây quyết định ID3
Độ đo lựa chọn thuộc tính Infomation Gain (Gain)
- Dựa trên lý thuyết thông tin của Claude Shannon
- Một thuộc tính được chọn nếu nó có giá trị Gain lớn nhất
Ta có:
𝑚 |𝐷 𝐶𝑖 |
- 𝐼𝑛𝑓𝑜 𝐷 = − 𝑖=1 𝑝𝑖 × 𝑙𝑜𝑔2 𝑝𝑖 trong đó 𝑝𝑖 =
|𝐷|
- Thuộc tính A có các giá trị là {a1, a2, ..., av}
𝑣 |𝐷𝑗 |
- 𝐼𝑛𝑓𝑜𝐴 𝐷 = 𝑗=1 |𝐷| × 𝑖𝑛𝑓𝑜 𝐷𝑗
- Độ đo Infomation gain của A
𝐺𝑎𝑖𝑛 𝐴 = 𝐼𝑛𝑓𝑜 𝐷 − 𝐼𝑛𝑓𝑜𝐴 𝐷
- Nhược điểm của độ đo này là có xu hướng lựa chọn thuộc tính có
nhiều giá trị => khả năng tạo ra các phân hoạch dữ liệu có tính trong
suốt cao => có Gain->min. (Ví dụ: thuộc tính ID)
13
Ví dụ: Xây dựng cây ID3 cho bài toán sau
đây
14
6. Cây quyết đinh C4.5
15
7. Cây quyết định CART
Độ đo lựa chọn thuộc tính Gini index
- Gini index đo độ không trong suốt của tập dữ liệu D
- Tính:
𝐺𝑖𝑛𝑖 𝐷 = 1 − 𝑚 2
𝑖=1 𝑝𝑖
Trong đó pi là xác suất một bộ trong D thuộc lớp Ci, được tính 𝑝𝑖 =
|𝐷 𝐶𝑖 |
|𝐷|
- Thuộc tính A có các giá trị là {a1, a2, ..., av}
𝑣 |𝐷𝑗 |
- 𝐺𝑖𝑛𝑖𝐴 𝐷 = 𝑗=1 |𝐷| × 𝐺𝑖𝑛𝑖 𝐷𝑗
- Độ đo Infomation gain của A
∆𝐺𝑖𝑛𝑖 𝐴 = 𝐺𝑖𝑛𝑖 𝐷 − 𝐺𝑖𝑛𝑖𝐴 𝐷
16
8. Các kiểu dữ liệu của thuộc tính
17
Cách phân chia
{Sports,
CarType Hoặc {Family,
CarType
Luxury} {Family} Luxury} {Sports}
18
Dữ liệu liên tục
• Động: Các khoảng có thể được xác định: khoảng bằng nhau, tần xuất bằng
nhau (phần trăm) hoặc phân cụm
19
9. Cắt tỉa cây
- Lý do phải cắt tỉa
- Một số nhánh cây bất thường (do dữ liệu bị nhiễu, phần tử ngoại
lai)
- Giải quyết vấn đề quá khớp dữ liệu (overfitting data)
- Làm cho cây trở nên đơn giản hơn => dễ hiểu với người dùng
- Các hướng tiếp cận
- Cắt tỉa trước (prepruning): dừng (halting) sơm trong quá trình
xây dựng cây, không phân hoạch tiếp mà tạo ra nút lá với nhãn
là lớp có số lượng cao nhất
- Dừng lại khi cây đạt độ cao cho trước
- Dừng lại khi độ đo lựa chọn thuộc tính < ngưỡng cho trước
- Cắt tỉa sau (postpruning): cắt tỉa sau khi cây đã phát triển đầy
đủ.
- Thay thế một cây con bằng một nút lá có nhãn là lớp chủ yếu của cây con
20
10. Rừng ngẫu nhiên (Random Forest)
21
Tạo Rừng ngẫu nhiên
• Gồm 3
pha
22
Thủ tục xây dựng rừng ngẫu nhiên
• Gồm 3 phá
– Tạo dữ liệu ngẫu nhiên
– Tạo cây QĐ cơ sở
– Kết hợp các cây QĐ cơ sở theo phương thức bỏ phiếu
𝑁
• Pha tạo dữ liệu từ tập dữ liệu 𝐷 = 𝑥𝑖 , 𝑦𝑖 𝑖=1 , 𝑥𝑖 ∈ 𝑅𝑛
– Chọn ngâu nhiên M (<N) và m (<n) để tạo ra cơ sở dữ liệu con
Dk
– Theo gợi ý của Breiman thì m được chọn như sau: Với bài toán
phân lớp thì m = n , bài toán hồi qui m = n/3
23
Thuật toán xây dựng rừng ngẫu nhiên
24
IV. Bài tập
• Cho cơ sở dữ liệu điểm có câu
trúc như hình bên.
• Yêu cầu:
– Chuyển đổi điểm về dạng chữ
(F, D, …)
– Chuyển điểm TBC thành xếp
loại (<5.0 : Yếu, 5 ≤ và <7:
Trung Bình, 7≤ và <8: Khá, 8 ≤
và <9: Giỏi, 9 ≤ : Xuất sắc
– Xây dựng cây quyết định từ
CSDL này
– Nhập vào một bộ điểm của 1
sinh viên cho biết sinh viên này
được xếp loại nào
25
Dữ liệu phân lớp mẫu
• https://archive.ics.uci.edu/ml/datasets.html?format=&task=cla&att=&area=&numAtt=&numIns=&ty
pe=&sort=nameUp&view=table
26