4 - Phan Lop Du Lieu-Final

Uploaded by

Đức Trần Trọng

0% found this document useful (0 votes)

4 views12 pages

Original Title

4 - Phan Lop Du Lieu-Final (1)

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

4 views12 pages

4 - Phan Lop Du Lieu-Final

Uploaded by

Đức Trần Trọng

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 12

Search inside document

PHƯƠNG PHÁP PHÂN CHIA DỮ

LIỆU HOLD-OUT
 Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập
theo 1 tỷ lệ nhất định. Ví dụ, tập huấn luyện (training set) chiếm 70%, tập
thử nghiệm (testing set) chiếm 30%.
 Phương pháp này thích hợp cho các tập dữ liệu nhỏ. Tuy nhiên, các mẫu có
thể không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).
 Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được
phân bố đều trong cả 2 tập dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu
ngẫu nhiên : thực hiện holdout k lần và độ chính xác acc(M) = trung bình
cộng k giá trị chính xác.
K-FOLD CROSS VALIDATION
 Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước
(gọi là các fold).
 Một trong các fold được sử dụng làm tập dữ liệu đánh giá và phần còn
lại được sử dụng làm tập huấn luyện.
 Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập
dữ liệu đánh giá.
 Xét ví dụ: 5-fold cross validation
HOLD-OUT VS. K-FOLD CROSS
VALIDATION
 Phương pháp K-fold thường được sử dụng nhiều hơn do
mô hình sẽ được huấn luyện và đánh giá trên nhiều
phần dữ liệu khác nhau. Từ đó tăng độ tin cậy cho các độ
đo đánh giá của mô hình.
 Phương pháp Hold-out thường cho hiệu quả tốt trên các
tập dữ liệu lớn. Tuy nhiên, ở các tập dữ liệu nhỏ hoặc
vừa phải, hiệu quả của mô hình sử dụng phương pháp
này phụ thuộc nhiều vào cách chia cũng như tỷ lệ chia
dữ liệu.
DEMO BẰNG CÔNG CỤ ORANGE Microsoft Excel
Worksheet

 Cho tập dữ liệu bán hàng (Sales_Data.xlsx)

DEMO BẰNG CÔNG CỤ ORANGE Microsoft Excel
Worksheet

 Bài toán: cần dự báo phân loại khách hàng (Forecast_Data.xlsx)

DEMO BẰNG CÔNG CỤ ORANGE

 Chọn nguồn dữ liệu và

xác định mô hình dự báo

Biến không
tham gia vào
mô hình

Biến phụ thuộc

DEMO BẰNG CÔNG CỤ ORANGE

 Dự báo bằng 1 thuật toán cụ thể

(VD: LR)

Kết quả
DEMO BẰNG CÔNG CỤ ORANGE

 So sánh các thuật toán, rồi dùng thuật toán tốt nhất để dự báo
DEMO BẰNG CÔNG CỤ ORANGE
K-fold với k=5
 Kết quả huấn luyện với 3 thuật toán

AUC: Area Under the Curve

CA: Accuracy
F1, Precision, Recall
DEMO BẰNG CÔNG CỤ ORANGE
 Xem kết quả Ma trận nhầm lẫn
DEMO BẰNG CÔNG CỤ ORANGE

 Kết quả dự báo bằng phương pháp SVM

TÀI LIỆU THAM KHẢO

 [1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery
Handbook”, Second Edition, Springer Science + Business Media, LLC
2005, 2010
 [2] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin
Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC,
2009
 [3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
 [4] Daniel T. Larose, “Data mining methods and models”, John Wiley &
Sons, Inc, 2006.

Vận Trù Học
From Everand
Vận Trù Học
Phong Nguyễn Như
No ratings yet
Chương Iii
Document12 pages
Chương Iii
Bảo Trân Nguyễn
No ratings yet
Thống Kê Trong Công Nghiệp
From Everand
Thống Kê Trong Công Nghiệp
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Overfitting
Document6 pages
Overfitting
greensummerproject
No ratings yet
Tính Toán Mềm & Ứng Dụng
From Everand
Tính Toán Mềm & Ứng Dụng
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
2015 TL KnowledgeDistillation
Document9 pages
2015 TL KnowledgeDistillation
Hoàng Thi
No ratings yet
NHÓM 1 - BUỔI 1 - KINH TẾ LƯỢNG TÀI CHÍNH
Document10 pages
NHÓM 1 - BUỔI 1 - KINH TẾ LƯỢNG TÀI CHÍNH
kimchi.15102004
No ratings yet
BT Phân L P
Document4 pages
BT Phân L P
NGỌC NGUYỄN THẾ
100% (1)
Chapter 2.2 Overfitting
Document23 pages
Chapter 2.2 Overfitting
ha quan
No ratings yet
ChuyenDe FINAL Ne
Document61 pages
ChuyenDe FINAL Ne
Đào Hồng
No ratings yet
Baitap 20521658
Document5 pages
Baitap 20521658
Nghĩa Trương Đăng
No ratings yet
BCCK Aem N2
Document23 pages
BCCK Aem N2
Mỹ Duyên
No ratings yet
bài tập môn AIphần 2
Document7 pages
bài tập môn AIphần 2
hiệp nguyễn
No ratings yet
KTra 1
Document1 page
KTra 1
AN DOAN BAO
No ratings yet
Bai3So 4 2007
Document4 pages
Bai3So 4 2007
Van Anh Le
No ratings yet
Tuần 2 - Nhóm 3
Document4 pages
Tuần 2 - Nhóm 3
Ý Thương
No ratings yet
Phanlop - Nguyễn Phúc Tín
Document5 pages
Phanlop - Nguyễn Phúc Tín
tinnguyen1447
No ratings yet
QHTN 1
Document48 pages
QHTN 1
Hậu Vũ
No ratings yet
KHDL1
Document16 pages
KHDL1
Khánh Đinh Hoàng Nam
No ratings yet
Huong Dan Su Dung Weka PDF
Document16 pages
Huong Dan Su Dung Weka PDF
Phong Thien Thanh
50% (2)
Chương 6
Document36 pages
Chương 6
Xuan Lien Hoang
No ratings yet
6 Chuong 4 Hoc May Va Hoc Sau
Document30 pages
6 Chuong 4 Hoc May Va Hoc Sau
Nguyễn Khánh
No ratings yet
668 - Fulltext - 4.ĐTVT - Phuoc - Vuong Quang Phuoc
Document12 pages
668 - Fulltext - 4.ĐTVT - Phuoc - Vuong Quang Phuoc
tung pham
No ratings yet
NguyenVanHoang 19110209 Tuan10 Lythuyet
Document3 pages
NguyenVanHoang 19110209 Tuan10 Lythuyet
Nguyễn Hoàng
No ratings yet
Chuong 4 - Dich Tieng Viet
Document66 pages
Chuong 4 - Dich Tieng Viet
nganvo.35231022147
No ratings yet
Đề KTL Rà soát 3
Document3 pages
Đề KTL Rà soát 3
bab3cute
No ratings yet
On Tap Ly Thuyet 2
Document4 pages
On Tap Ly Thuyet 2
Nhi Trần Võ Xuân
No ratings yet
Weka Classification
Document28 pages
Weka Classification
maytranght
No ratings yet
Phan4 - C15 - Du Bao Kinh Doanh
Document30 pages
Phan4 - C15 - Du Bao Kinh Doanh
Thành Tâm Trần Hoàng
No ratings yet
Triteunhantao
Document25 pages
Triteunhantao
Quang Huy
No ratings yet
Lab 01 - Preprocessing: Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên
Document17 pages
Lab 01 - Preprocessing: Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên
triet24042404
No ratings yet
File Báo Cáo
Document8 pages
File Báo Cáo
ado30025061
No ratings yet
Chương II. Những Khái Niệm Cơ Bản Của Lý Thuyết Xác Suất
Document91 pages
Chương II. Những Khái Niệm Cơ Bản Của Lý Thuyết Xác Suất
Mai Công Danh
No ratings yet
Decision Tree
Document5 pages
Decision Tree
Trần Lê Thiện
No ratings yet
KHDL
Document19 pages
KHDL
hungnguyen.31211024151
No ratings yet
L2-Danh Gia Hieu Nang
Document23 pages
L2-Danh Gia Hieu Nang
Lê Thị Thu Thảo
No ratings yet
Phat Hien Ma Doc Bang Machine Learning
Document63 pages
Phat Hien Ma Doc Bang Machine Learning
Hana Yuki
No ratings yet
DSS04 ModelingAndAnalysis
Document36 pages
DSS04 ModelingAndAnalysis
Dilys Pham
No ratings yet
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Document23 pages
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
NC music
No ratings yet
Lý thuyết
Document7 pages
Lý thuyết
Hoang Duc Trong
No ratings yet
TCDL
Document36 pages
TCDL
Huyên Huỳnh Thanh
No ratings yet
How To Use Iterative Imputation
Document3 pages
How To Use Iterative Imputation
Vĩnh Hưng
No ratings yet
MLP302x Regression 2
Document10 pages
MLP302x Regression 2
đức ngọc trần
No ratings yet
Khoa học máy
Document14 pages
Khoa học máy
Thanh Phương Thái Hoàng
No ratings yet
DSS04 ModelingAndAnalysis
Document37 pages
DSS04 ModelingAndAnalysis
Thịnh Thái
No ratings yet
Phân tích thống kê cho nhà Hóa học PDF
Document351 pages
Phân tích thống kê cho nhà Hóa học PDF
Hung NGUYEN
No ratings yet
Structural Equation Modelling PDF
Document8 pages
Structural Equation Modelling PDF
le_phung_5
100% (3)
Machine Learning
Document29 pages
Machine Learning
Nguyễn Hoàng
No ratings yet
Evaluation-TQKhoat (A6-A7)
Document29 pages
Evaluation-TQKhoat (A6-A7)
ha quan
No ratings yet
Baitap - Online - T4 - 2020
Document12 pages
Baitap - Online - T4 - 2020
Nguyen Hai Trang
No ratings yet
ĐỀ TÀI: Thuật toán K-mean và ứng dụng vào bài toán phân lớp đối tượng khách hàng trong kinh doanh
Document19 pages
ĐỀ TÀI: Thuật toán K-mean và ứng dụng vào bài toán phân lớp đối tượng khách hàng trong kinh doanh
phamchauanh125
No ratings yet
Khdl Phần Lý Thuyết
Document21 pages
Khdl Phần Lý Thuyết
tinhle.31221023009
No ratings yet
Chuong4 MoHinhMoPhongMonteCarlo
Document49 pages
Chuong4 MoHinhMoPhongMonteCarlo
Phạm Thị Tường Vy
No ratings yet
Commission 3
Document4 pages
Commission 3
Hieu Ngo
No ratings yet
Chuong 5 Phan Tich Nhan To Kham Pha EFA
Document48 pages
Chuong 5 Phan Tich Nhan To Kham Pha EFA
Khánh Phương
No ratings yet
11250/2504900/Eklund-Larsen - Pdf?Sequence 1&isallowed Y: I/ Model For Analysing Credit Risk in The Enterprise Sector
Document19 pages
11250/2504900/Eklund-Larsen - Pdf?Sequence 1&isallowed Y: I/ Model For Analysing Credit Risk in The Enterprise Sector
KHÁNH NGUYỄN THỊ
No ratings yet
Cấu Trúc Đề Thi Chung
Document3 pages
Cấu Trúc Đề Thi Chung
Vaan Anh
No ratings yet
A Novel Ensemble Classifier Based Tree Model For Credit Scoring
Document11 pages
A Novel Ensemble Classifier Based Tree Model For Credit Scoring
clairenguyen0110
No ratings yet
BÀI 1 - Introduction To MS
Document19 pages
BÀI 1 - Introduction To MS
Thảo Vy Nguyễn Thị
No ratings yet
08 - Mo Hình Ket Hop
Document57 pages
08 - Mo Hình Ket Hop
Win Lã
No ratings yet