Professional Documents
Culture Documents
Khoa học dữ liệu - Phân lớp
Khoa học dữ liệu - Phân lớp
Nhóm
biết bơi
Nhóm
biết bò
Nhóm….?
Y = aX+ b
y = aX +b
Thuật toán phân lớp
Phân lớp là gì?
• Là một quá trình của việc chia các lớp dữ liệu thành các nhóm hay loại
khác nhau bằng việc gắn nhãn.
• Là kỹ thuật của việc phân loại các quan sát (mẫu) thành các loại khác
nhau. Vậy về cơ bản, chúng ta xử lý dữ liệu, phân tích dữ liệu dựa trên
một số điều kiện và cuối cùng chúng ta phân chia dữ liệu đấy thành
các loại hay nhóm đã được gắn nhãn trước.
Name Egg- Scales Poisonous Cold- #legs Reptile
laying Blooded
Rắn mang True True True True 0 YES
bành
Rắn đuôi True True True True 0 YES
chuông
Trăn nhiệt đới False True False True 0 YES
Gà True True False False 2 NO
Cá chép False True False False 0 No
Ếch độc True False True False 4 No
Ngựa vằn False False False False 4 No
Trăn True True False True 0 Yes
Cá sấu True True False True 4 Yes
Máu lạnh+
Trên cạn, có
vẩy
• Phân lớp dữ liệu: Là xếp các đối tượng dữ liệu vào trong một lớp đã
được xác định trước.
Gió
Bắc nam
Áp suất Áp suất
Cao
Thấp
Không Cao
mưa Mưa Mưa
Không
Trời Trời mưa
mây
Mưa
• Với dữ liệu mới (Trong, Thấp, Nam), trời sẽ mưa hay không mưa?
• Chúng ta có một bảng dữ liệu về
thời tiết và việc thi đấu của một đối
bóng trong 14 ngày qua.
Sunny rainy
overcast
Temp.
no humidity yes
high normal
no yes
Outlook
Sunny rainy
overcast
Temp. yes
no humidity yes
high normal
no yes
Outlook
Sunny rainy
overcast
Sunny rainy
overcast
no yes no yes
• IG (S, outlook) = 0.247; IG(S, temp.) = 0.029 ; IG(S,humidity) = 0.152; IG(S,windy) = 0.048;
• Vậy chon đặc trưng outlook là nốt chia đầu tiên (nốt gốc)
Outlook
Sunny rainy
overcast
Sẽ ko Y : phân nhóm/cụm
Có Y: Phân lớp
Mối quan
hệ
3
• SVM – Support vector machines
3
• SVM – Support vector machines
Support vector machines
SVM