Professional Documents
Culture Documents
Minimalist Business Slides XL by Slidesgo
Minimalist Business Slides XL by Slidesgo
• Bước
• Bước thứthứ
hainhất
(classification)
(learning)
Bước
Quáthứtrìnhhaihọc
dùngnhằm
mô xây
hìnhdựng
đã xây
mộtdựng
mô hình
ở bước
mô trước
tả mộtđể tậpphân
các lớp dữ liệu hay
mới.
cácTrước
khái niệm
tiên độđịnh
chính
trước.
xácĐầu
mangvàotính
củachất
quádựtrình
đoán
nàycủa
là một
mô tập
hìnhdữ
phânliệulớp
có cấu
vừa trúc
tạo ra
được
đượcước môlượng.
tả bằng Holdout
các thuộc
là một
tínhkỹvàthuật
đượcđơn
tạogiản
ra từ
đểtập
ướccáclượng
bộ giáđộtrịchính
của các
xác thuộc
đó. Kỹ
thuật
tínhnày
đó. sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp. Các
mẫuMỗinày
bộ được
giá trị chọn
đượcngẫu
gọi chung
nhiên là
vàmột
độcphần
lập với
tử các
dữ liệu
mẫu(data
trongtuple),
tập dữcóliệu
thểđào
là các
tạo
mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp
(case)
Chuẩn bị dữ liệu cho việc phân lớp
Tiền xử lý dữ liệu
• Làm sạch dữ liệu: Làm sạch dữ liệu liên quan đến việc xử lý với lỗi (noise) và
giá trị thiếu (missing value) trong tập dữ liệu ban đầu. Noise là các lỗi ngẫu
nhiên hay các giá trị không hợp lệ của các biến trong tập dữ liệu
• Phân tích sự cần thiết của dữ liệu: Có rất nhiều thuộc tính trong tập dữ liệu có
thể hoàn toàn không cần thiết hay liên quan đến một bài toán phân lớp cụ thể
• Chuyển đổi dữ liệu: Ví dụ các giá trị số của thuộc tính thu nhập của khách hàng
có thể được khái quát hóa thành các dãy giá trị rời rạc: thấp, trung bình, cao.
So sánh các mô hình phân lớp
• Độ chính xác dự đoán (predictive accuracy): Độ chính xác là khả năng của mô hình để dự đoán
chính xác nhãn lớp của dữ liệu mới hay dữ liệu chưa biết.
• Tốc độ (speed): Tốc độ là những chi phí tính toán liên quan đến quá trình tạo ra và sử dụng mô hình.
• Sức mạnh (robustness): Sức mạnh là khả năng mô hình tạo ta những dự đoán đúng từ những dữ
liệu noise hay dữ liệu với những giá trị thiếu.
• Khả năng mở rộng (scalability): Khả năng mở rộng là khả năng thực thi hiệu quả trên lượng lớn dữ
liệu của mô hình đã học.
• Tính hiểu được (interpretability): Tính hiểu được là mức độ hiểu và hiểu rõ những kết quả sinh ra bởi
mô hình đã học.
• Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thước của cây quyết định hay độ cô
đọng của các luật.
02
Tổng quan về
Decision Tree
Tổng quan:
Một cây quyết định là một cấu trúc thuật toán giống như flowchart, với mỗi một nút (node) là một phép
so sánh,
Mục nhằm là
tiêu chính thực
xâyhiện
dựngthửđược
một một
đặc mô
trưng nàocóđó.
hình khảMỗi mộtdự
năng nhánh
đoán(branch, edge,
giá trị của đầuetc.) thểvào
ra dựa hiệnmột
kếtvài
quả của
biến đầuphép
vào. so sánh đó, và mỗi một ngọn, tức nút cuối (leaf node), biểu diễn kết quả phân loại của
thuật toán, sau khi tính . Đường đi từ gốc đến ngọn thể hiện luật phân loại (classification rules).
Tổng quan:
• Boosted trees: xây dựng một tập thể bằng cách huấn luyện từng cây riêng lẻ để hỗ trợ các cây sai
lệch trước đó.
• Bootstrap aggregated: xây dựng nhiều cây quyết định cùng một lúc bằng cách liên tục tái lẫy mẫu
và thay thế các tập dữ liệu con, và thực hiện biểu quyết để quyết định nhãn đầu ra. Một ví dụ điển
hình chính là Random Forest.
• Rotation forest: xây dựng nhiều cây quyết định, với mỗi cây quyết định được huấn luyện trên các
tập dữ liệu con với các đặc trưng được lựa chọn ngẫu nhiên. Trước khi huấn luyện, các tập dữ liệu
con được thực hiện PCA.
Các thuật toán nổi tiếng
Ví dụ: toán
Thuật nếu một
tăngmô cường
hình là
xác
một
định
phương
cá thểpháp
mèo được
chỉ đượcsử dụng
đào tạotrong
dựa
máytrênhọc
hình
đểảnh
giảmcálỗi
thểtrong
mèoquá
trắng
trình
thì
phân
mô hình
tíchnày
dữ thi
liệuthoảng
dự đoán.
có thể
Cácnhầm
nhà khoa
lẫn với
họcmột
dữcáliệuthểđào
mèotạođen.
phần
Thuật
mềmtoánmáytăng
học,cường
hay còn cốgọi
gắng
là các
vượt
mô hình
qua vấn đề
máynày
học,
bằng
trêncách
dữ liệu
đàođược
tạo nhiều
gắn nhãn
mô hình
để dựtheođoán
trìnhvềtựdữ
đểliệu
cải chưa
thiện được
độ chính
gắnxácnhãn.
củaMột
toànmô bộ
hình
hệ thống.
máy học có thể dự đoán lỗi dựa trên độ chính xác của tập dữ liệu đào tạo
Tại sao thuật toán tăng cường lại quan trọng?
Thuật toán nâng cao độ chính xác trong việc dự đoán và hiệu suất của các mô hình máy bằng cách
chuyển đổi các máy học yếu thành một mô hình máy học mạnh. Các mô hình máy học có thể là máy
học yếu hoặc máy học mạnh
Tại sao thuật toán tăng cường lại quan trọng?
Máy học yếu Máy học mạnh
Máy học yếu có độ chính xác thấp trong Máy học mạnh có độ chính xác cao hơn
việc dự đoán, tương tự đoán ngẫu trong việc dự đoán. Thuật toán tăng
nhiên. Các máy này dễ mắc vào tình cường chuyển đổi hệ thống các máy học
trạng quá khớp—cụ thể, các máy này yếu thành một hệ thống máy học mạnh.
không thể phân loại dữ liệu có quá nhiều Ví dụ: để xác định hình ảnh mèo, hệ
khác biệt so với tập dữ liệu gốc. Ví dụ: thống kết hợp máy học yếu dự đoán đôi
nếu bạn đào tạo một mô hình để xác tai nhọn với một máy học khác dự đoán
định các cá thể mèo là động vật tai đôi mắt mèo. Sau khi phân tích hình ảnh
nhọn, mô hình này có khả năng không động vật để tìm kiếm đôi tai nhọn, hệ
thể nhận dạng cá thể mèo tai xoắn. thống sẽ phân tích một lần nữa để tìm
kiếm đôi mắt mèo. Quá trình này cải
thiện độ chính xác của toàn bộ hệ thống.
Thuật toán tăng cường hoạt động như thế nào?
Đầu tiên,
Có thểAdaBoost
sử dụngđưa AdaBoost
ra một vớitrọngnhiều
số như
công nhau
cụ dựchođoán,
mọi tậpvà thuật
dữ liệu.
toánSau
nàyđó,
thường
thuật toán
không này sẽ tự
động
Thuậtnhạy
điều cảm
chỉnh
toán như
tăng trọng
các
cườngsốthuật
của các
thích toán
ứngđiểm
tăng dữ
cường
(AdaBoost)liệu sau
khác.
là mỗi
một Cách
cây tiếp
trong quyết
nhữngcận
định.
mônàyhình
Thuật
khôngtoán
hiệu
thuật này
toán quả đưa
khi cường
tăng ra
có trọngđầusố
lớn
tiênhơn
sự
đượctương
chophát
các
quan
mụcgiữa
triển. đượccác
Thuật phân
tínhnày
toán loại
năng saihoặc
đểứng
thích khắc
chiều
vàphục
dữgắng
cố liệu
những lớn. mục
tự sửaNhìnnày
lỗichung,
cho mọi
trong vòng
AdaBoost
lầntiếp
lặptheo.
là
lạiloại
Thuật
quy trìnhtoán
tăng
lặp lạithuật
cường quy toán
trình tăng
đến khi
cường
lỗi sót
phù lạihợp
hoặc cho
sựcác
sai vấn
khácđềgiữa
phân giáloại.
trị thực tế và giá trị dự đoán thấp hơn
ngưỡng chấp nhận.
Ưu điểm
Dễ triển khai
Thuật toán tăng cường có các thuật toán dễ hiểu và dễ diễn giải, được đúc kết từ sai lầm. Các
thuật toán này không yêu cầu bất cứ quá trình tiền xử lý dữ liệu nào, đồng thời còn có các quy
trình tíchquả
Hiệu hợpđiện
sẵn để
toánxử lý dữ liệu còn thiếu. Ngoài ra, phần lớn ngôn ngữ đều có thư viện tích
hợpCácsẵnthuật
để triển
toánkhai
tăngcác thuậtưu
cường toán
tiêntăng cường
những tínhvới nhiều
năng làmtham
tăng số
độ có thể xác
chính tinh chỉnh hiệu suất.
Giảmcủathiên kiếntrong quá trình đào tạo. Các thuật toán này giúp giảm thuộc tính
dự đoán
Thiên
dữ kiến là sự
liệu và xử tồn tạidữ
lý tập củaliệu
tính
lớnkhông chắc hiệu
một cách chắnquả.
hoặc không chính xác trong kết quả của máy
học. Các thuật toán tăng cường kết hợp nhiều máy học yếu theo phương pháp có trình tự liên
tục cải thiện các dự đoán. Hướng tiếp cận này giúp giảm mức độ thiên kiến cao thường gặp ở
các mô hình máy học.
Nhược điểm
Dễ bị ảnh hưởng bởi dữ liệu ngoại lai
Các mô hình thuật toán tăng cường dễ bị ảnh hưởng bởi dữ liệu ngoại lai hoặc giá trị dữ liệu
khác với phần còn lại của tập dữ liệu. Vì mỗi mô hình đều cố gắng khắc phục các lỗi của phiên
bản tiền nhiệm, nên dữ liệu ngoại lai có thể làm kết quả bị sai lệch đáng kể.
Triển khai theo thời gian thực
Bạn cũng có thể cảm thấy khó khăn khi sử dụng thuật toán tăng cường cho quá trình triển khai
theo thời gian thực vì thuật toán này phức tạp hơn các quy trình khác. Phương pháp thuật
toán tăng cường có tính thích ứng cao nên bạn có thể sử dụng một loạt các tham số mô hình
đa dạng có ảnh hưởng ngay lập tức đến hiệu suất của mô hình.