You are on page 1of 22

Chương II

Các Kỹ Thuật Phân Lớp


01
Tổng quan về
phân lớp dữ liệu
Phân lớp dữ liệu
Ngày
Phân nay phân
lớp và dự lớp
đoán dữlàliệu
hai (classification)
dạng của phân tích dữ
liệu
là nhằm
một trích
trong rút rahướng
những một mô hình cứu
nghiên
mô tả của
chính các khai
lớp dữpháliệu
dữquan
liệu trọng hay dự đoán xu
hướng dữ liệu tương lai. Phân lớp dự
đoán giá trị của những nhãn xác định (categorical
Thực
label)tếhay
đặt những
ra nhu giá
cầutrịlàrời
từ rạc
một cơ sở
dữ liệu vớivalue),
(discrete nhiều thông
có nghĩatin ẩn con lớp thao tác với
là phân
người
những cóđối
thểtượng
trích rút
dữra
liệucácmàquyết
có bộđịnh
nghiệp
giá trị vụ thông
là biết minh.
trước
Phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước

• Bước
• Bước thứthứ
hainhất
(classification)
(learning)
Bước
Quáthứtrìnhhaihọc
dùngnhằm
mô xây
hìnhdựng
đã xây
mộtdựng
mô hình
ở bước
mô trước
tả mộtđể tậpphân
các lớp dữ liệu hay
mới.
cácTrước
khái niệm
tiên độđịnh
chính
trước.
xácĐầu
mangvàotính
củachất
quádựtrình
đoán
nàycủa
là một
mô tập
hìnhdữ
phânliệulớp
có cấu
vừa trúc
tạo ra
được
đượcước môlượng.
tả bằng Holdout
các thuộc
là một
tínhkỹvàthuật
đượcđơn
tạogiản
ra từ
đểtập
ướccáclượng
bộ giáđộtrịchính
của các
xác thuộc
đó. Kỹ
thuật
tínhnày
đó. sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp. Các
mẫuMỗinày
bộ được
giá trị chọn
đượcngẫu
gọi chung
nhiên là
vàmột
độcphần
lập với
tử các
dữ liệu
mẫu(data
trongtuple),
tập dữcóliệu
thểđào
là các
tạo
mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp
(case)
Chuẩn bị dữ liệu cho việc phân lớp
Tiền xử lý dữ liệu
• Làm sạch dữ liệu: Làm sạch dữ liệu liên quan đến việc xử lý với lỗi (noise) và
giá trị thiếu (missing value) trong tập dữ liệu ban đầu. Noise là các lỗi ngẫu
nhiên hay các giá trị không hợp lệ của các biến trong tập dữ liệu
• Phân tích sự cần thiết của dữ liệu: Có rất nhiều thuộc tính trong tập dữ liệu có
thể hoàn toàn không cần thiết hay liên quan đến một bài toán phân lớp cụ thể
• Chuyển đổi dữ liệu: Ví dụ các giá trị số của thuộc tính thu nhập của khách hàng
có thể được khái quát hóa thành các dãy giá trị rời rạc: thấp, trung bình, cao.
So sánh các mô hình phân lớp
• Độ chính xác dự đoán (predictive accuracy): Độ chính xác là khả năng của mô hình để dự đoán
chính xác nhãn lớp của dữ liệu mới hay dữ liệu chưa biết.
• Tốc độ (speed): Tốc độ là những chi phí tính toán liên quan đến quá trình tạo ra và sử dụng mô hình.
• Sức mạnh (robustness): Sức mạnh là khả năng mô hình tạo ta những dự đoán đúng từ những dữ
liệu noise hay dữ liệu với những giá trị thiếu.
• Khả năng mở rộng (scalability): Khả năng mở rộng là khả năng thực thi hiệu quả trên lượng lớn dữ
liệu của mô hình đã học.
• Tính hiểu được (interpretability): Tính hiểu được là mức độ hiểu và hiểu rõ những kết quả sinh ra bởi
mô hình đã học.
• Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thước của cây quyết định hay độ cô
đọng của các luật.
02
Tổng quan về
Decision Tree
Tổng quan:

Một cây quyết định là một cấu trúc thuật toán giống như flowchart, với mỗi một nút (node) là một phép
so sánh,
Mục nhằm là
tiêu chính thực
xâyhiện
dựngthửđược
một một
đặc mô
trưng nàocóđó.
hình khảMỗi mộtdự
năng nhánh
đoán(branch, edge,
giá trị của đầuetc.) thểvào
ra dựa hiệnmột
kếtvài
quả của
biến đầuphép
vào. so sánh đó, và mỗi một ngọn, tức nút cuối (leaf node), biểu diễn kết quả phân loại của
thuật toán, sau khi tính . Đường đi từ gốc đến ngọn thể hiện luật phân loại (classification rules).
Tổng quan:

Cây quyết định trong khai phá dữ liệu có 2 kiểu:


• Cây phân loại là cây có giá trị đầu ra là các lớp rời rạc của dữ liệu.
• Cây hồi quy là cây có giá trị đầu ra là các giá trị thực
Một số kỹ thuật khác

• Boosted trees: xây dựng một tập thể bằng cách huấn luyện từng cây riêng lẻ để hỗ trợ các cây sai
lệch trước đó.
• Bootstrap aggregated: xây dựng nhiều cây quyết định cùng một lúc bằng cách liên tục tái lẫy mẫu
và thay thế các tập dữ liệu con, và thực hiện biểu quyết để quyết định nhãn đầu ra. Một ví dụ điển
hình chính là Random Forest.
• Rotation forest: xây dựng nhiều cây quyết định, với mỗi cây quyết định được huấn luyện trên các
tập dữ liệu con với các đặc trưng được lựa chọn ngẫu nhiên. Trước khi huấn luyện, các tập dữ liệu
con được thực hiện PCA.
Các thuật toán nổi tiếng

• ID3 (Iterative Dichotomiser 3)


• C4.5
• CART
• Chi-square automatic interaction detection
• MARS
• Cây quy nạp điều kiện
Ưu điểm
• • Xử
Clear lý các thamThuật
Visualization: số phi
toán tuyến
đơntính
giảnmột cáchdiễn
để hiểu, hiệugiải
quả:
và Các
trực tham
quan số vì ýphi
tưởng chủ
tuyến tính không ảnh hưởng đến hiệu suất của cây quyết định
yếu được sử dụng trong cuộc sống hàng ngày của chúng ta. Đầu ra của cây quyết định cókhông
giống
thể được connhư các giải
người thuật toánmột
thích dựa trêndễ
cách đường
dàng.cong. Vì vậy, nếu có sự không
• tuyến
Đơn giản vàtính
dễ cao giữa
hiểu: Câycác
quyếtbiếnđịnh
độctrông
lập, cây quyết
giống nhưđịnhcác có
câuthể hoạt
lệnh độngđơn
if-else tốt giản và rất
hơn so với các thuật toán dựa trên đường cong khác.
dễ hiểu.
• Cây• quyết
Cây định
quyếtcóđịnh
thể có thể sử
được tự động
dụng xửcholýcảcác
bàigiá trị phân
toán bị thiếu.
loại và bài toán hồi quy.
• •
Cây quyết định có thể xử lý cả biến liên tục và biến phân loại.ngoại lệ và có
Cây quyết định thường mạnh mẽ đối với các trường hợp
• Khôngthể xửcầu
yêu lý chúng
feature một cách tựKhông
scaling: động. yêu cầu feature scaling (standardization và
• Thời gian
normalization) đàotrường
trong tạo ít hơn:
hợp cây Thời gianđịnh
quyết đào vì
tạonóít sử
hơndụng
so với rừng ngẫu
phương pháp tiếp cận dựa
nhiên (Random Forest
trên quy tắc thay vì tính toán. ) vì nó chỉ tạo ra một cây không giống như rừng
của các cây trong Random Forest.
Nhược điểm
Không ổn định: Việc thêm một điểm dữ liệu mới có thể dẫn đến việc tạo lại cây
tổng thể
Overfitting: Đâyvàlàtất
vấncảđề
cácchính
nút cần
củađược tính toán
cây quyết định.lạiNó
vàthường
tạo lại. dẫn đến việc quá khớp dữ
liệu màBịcuối
ảnhcùnghưởng
dẫn bởiđến nhiễu:
dự đoán Một chút
sai. Để dữ liệudữ
fit với nhiễu
liệu có thể cả
(ngay làmdữcho nónhiễu),
liệu không nóổn tiếp tục
định,nút
tạo ra các dẫn đến
mới vàdự đoán
cuối cùngsai.
cây trở nên quá phức tạp để diễn giải, dẫn đến mất khả năng
Không
tổng quát hóa.phù hợpđộng
Nó hoạt với tậprất dữ liệu dữ
tốt trên lớn: Nếu
liệu kíchđào
được thước
tạo dữ liệu bắt
nhưng lớn,đầu
thì một
mắccâynhiều lỗi trên
đơn lẻ có thể phát
dữ liệu không nhìn thấy được. triển phức tạp và dẫn đến quá khớp. Vì vậy, trong trường hợp
Phương này,
saichúng
cao: ta
Nhưnênđãsửđềdụng
cập Random
ở điểm 1,Forest thayđịnh
cây quyết vì một cây quyết
thường định.việc
dẫn đến Để quá
khắckhớp dữ
phụcvìnhững
liệu. Chính thế, cóhạnrấtchế
nhiềucủakhả
câynăng
quyết saiđịnh,
lệchchúng ta nên
cao trong đầusửra,dụng
dẫn Random
đến nhiềuForest
sai sót trong
đểcuối
ước tính không dựa
cùng vàvàochomột
thấycây
kếtnào.
quảNó tạo ra
không mộtxác
chính rừng câyQuá
cao. và đưa
khớpradẫn
quyếtđếnđịnh
phương sai
cao. dựa trên số phiếu bầu. Random Forest dựa trên phương pháp bagging là một
trong những kỹ thuật Ensemble Learning.
03
Thuật toán tăng
cường (AdaBoost)
Thuật toán tăng cường trong máy học là gì?

Ví dụ: toán
Thuật nếu một
tăngmô cường
hình là
xác
một
định
phương
cá thểpháp
mèo được
chỉ đượcsử dụng
đào tạotrong
dựa
máytrênhọc
hình
đểảnh
giảmcálỗi
thểtrong
mèoquá
trắng
trình
thì
phân
mô hình
tíchnày
dữ thi
liệuthoảng
dự đoán.
có thể
Cácnhầm
nhà khoa
lẫn với
họcmột
dữcáliệuthểđào
mèotạođen.
phần
Thuật
mềmtoánmáytăng
học,cường
hay còn cốgọi
gắng
là các
vượt
mô hình
qua vấn đề
máynày
học,
bằng
trêncách
dữ liệu
đàođược
tạo nhiều
gắn nhãn
mô hình
để dựtheođoán
trìnhvềtựdữ
đểliệu
cải chưa
thiện được
độ chính
gắnxácnhãn.
củaMột
toànmô bộ
hình
hệ thống.
máy học có thể dự đoán lỗi dựa trên độ chính xác của tập dữ liệu đào tạo
Tại sao thuật toán tăng cường lại quan trọng?

Thuật toán nâng cao độ chính xác trong việc dự đoán và hiệu suất của các mô hình máy bằng cách
chuyển đổi các máy học yếu thành một mô hình máy học mạnh. Các mô hình máy học có thể là máy
học yếu hoặc máy học mạnh
Tại sao thuật toán tăng cường lại quan trọng?
Máy học yếu Máy học mạnh
Máy học yếu có độ chính xác thấp trong Máy học mạnh có độ chính xác cao hơn
việc dự đoán, tương tự đoán ngẫu trong việc dự đoán. Thuật toán tăng
nhiên. Các máy này dễ mắc vào tình cường chuyển đổi hệ thống các máy học
trạng quá khớp—cụ thể, các máy này yếu thành một hệ thống máy học mạnh.
không thể phân loại dữ liệu có quá nhiều Ví dụ: để xác định hình ảnh mèo, hệ
khác biệt so với tập dữ liệu gốc. Ví dụ: thống kết hợp máy học yếu dự đoán đôi
nếu bạn đào tạo một mô hình để xác tai nhọn với một máy học khác dự đoán
định các cá thể mèo là động vật tai đôi mắt mèo. Sau khi phân tích hình ảnh
nhọn, mô hình này có khả năng không động vật để tìm kiếm đôi tai nhọn, hệ
thể nhận dạng cá thể mèo tai xoắn. thống sẽ phân tích một lần nữa để tìm
kiếm đôi mắt mèo. Quá trình này cải
thiện độ chính xác của toàn bộ hệ thống.
Thuật toán tăng cường hoạt động như thế nào?

Cây quyết định


Cây quyết định là cấu trúc dữ liệu trong máy học, hoạt
động bằng cách chia tập dữ liệu thành các tập con
nhỏ hơn dựa trên tính năng của chúng. Về cơ bản,
cây quyết định sẽ chia dữ liệu liên tục đến khi chỉ còn
lại một lớp. Ví dụ: cây có thể đặt ra một chuỗi các câu
hỏi có hoặc không và chia dữ liệu thành các danh
mục theo từng bước.
Tổng quan:

Đầu tiên,
Có thểAdaBoost
sử dụngđưa AdaBoost
ra một vớitrọngnhiều
số như
công nhau
cụ dựchođoán,
mọi tậpvà thuật
dữ liệu.
toánSau
nàyđó,
thường
thuật toán
không này sẽ tự
động
Thuậtnhạy
điều cảm
chỉnh
toán như
tăng trọng
các
cườngsốthuật
của các
thích toán
ứngđiểm
tăng dữ
cường
(AdaBoost)liệu sau
khác.
là mỗi
một Cách
cây tiếp
trong quyết
nhữngcận
định.
mônàyhình
Thuật
khôngtoán
hiệu
thuật này
toán quả đưa
khi cường
tăng ra
có trọngđầusố
lớn
tiênhơn
sự
đượctương
chophát
các
quan
mụcgiữa
triển. đượccác
Thuật phân
tínhnày
toán loại
năng saihoặc
đểứng
thích khắc
chiều
vàphục
dữgắng
cố liệu
những lớn. mục
tự sửaNhìnnày
lỗichung,
cho mọi
trong vòng
AdaBoost
lầntiếp
lặptheo.

lạiloại
Thuật
quy trìnhtoán
tăng
lặp lạithuật
cường quy toán
trình tăng
đến khi
cường
lỗi sót
phù lạihợp
hoặc cho
sựcác
sai vấn
khácđềgiữa
phân giáloại.
trị thực tế và giá trị dự đoán thấp hơn
ngưỡng chấp nhận.
Ưu điểm
Dễ triển khai
Thuật toán tăng cường có các thuật toán dễ hiểu và dễ diễn giải, được đúc kết từ sai lầm. Các
thuật toán này không yêu cầu bất cứ quá trình tiền xử lý dữ liệu nào, đồng thời còn có các quy
trình tíchquả
Hiệu hợpđiện
sẵn để
toánxử lý dữ liệu còn thiếu. Ngoài ra, phần lớn ngôn ngữ đều có thư viện tích
hợpCácsẵnthuật
để triển
toánkhai
tăngcác thuậtưu
cường toán
tiêntăng cường
những tínhvới nhiều
năng làmtham
tăng số
độ có thể xác
chính tinh chỉnh hiệu suất.
Giảmcủathiên kiếntrong quá trình đào tạo. Các thuật toán này giúp giảm thuộc tính
dự đoán
Thiên
dữ kiến là sự
liệu và xử tồn tạidữ
lý tập củaliệu
tính
lớnkhông chắc hiệu
một cách chắnquả.
hoặc không chính xác trong kết quả của máy
học. Các thuật toán tăng cường kết hợp nhiều máy học yếu theo phương pháp có trình tự liên
tục cải thiện các dự đoán. Hướng tiếp cận này giúp giảm mức độ thiên kiến cao thường gặp ở
các mô hình máy học.
Nhược điểm
Dễ bị ảnh hưởng bởi dữ liệu ngoại lai
Các mô hình thuật toán tăng cường dễ bị ảnh hưởng bởi dữ liệu ngoại lai hoặc giá trị dữ liệu
khác với phần còn lại của tập dữ liệu. Vì mỗi mô hình đều cố gắng khắc phục các lỗi của phiên
bản tiền nhiệm, nên dữ liệu ngoại lai có thể làm kết quả bị sai lệch đáng kể.
Triển khai theo thời gian thực
Bạn cũng có thể cảm thấy khó khăn khi sử dụng thuật toán tăng cường cho quá trình triển khai
theo thời gian thực vì thuật toán này phức tạp hơn các quy trình khác. Phương pháp thuật
toán tăng cường có tính thích ứng cao nên bạn có thể sử dụng một loạt các tham số mô hình
đa dạng có ảnh hưởng ngay lập tức đến hiệu suất của mô hình.

You might also like