Professional Documents
Culture Documents
Learning
(Artificial Intelligence)
[1] GiaoTrinh-TriTueNhanTao-TuMinhPhuong-2014.pdf
[2] https://machinelearningcoban.com
[3] https://
www.noron.vn/post/tim-hieu-ve-confusion-matrix-trong-machine-learning1fz9nhqo5ux?fbclid=IwA
R2X_XY_H_Ge1kjv0uhOKavLvbNRbtSITk7CIJv3BMQGyXkMuUR41UKrZdY
[4] https://
www.stdio.vn/ai-ml/bai-toan-phan-lop-trong-machine-learning-classification-in-machine-learning-5
15OIh
Machine Learning
Khái niệm
MachineLearning là một tập con của AI và là
một lĩnh vực nhỏ của Khoa Học Máy Tính.
Cung cấp cho chương trình máy khả
năng tự động học hỏi dựa trên dữ liệu đưa vào
mà không cần phải lập trình cụ thể.
Mối quan hệ giữa AI, Machine
Learning và Deep Learning.
Mối liên hệ giữa AI và Machine Learning
AI THỂ HIỆN MỘT MỤC TIÊU CỦA CON NGƯỜI. MACHINE LEARNING LÀ MỘT PHƯƠNG TIỆN
ĐƯỢC KỲ VỌNG SẼ GIÚP CON NGƯỜI ĐẠT ĐƯỢC MỤC TIÊU ĐÓ.
VÀ THỰC TẾ THÌ MACHINE LEARNING ĐÃ MANG NHÂN LOẠI ĐI RẤT XA TRÊN QUÃNG
ĐƯỜNG CHINH PHỤC AI.
MACHINE LEARNING VÀ AI CÓ MỐI QUAN HỆ CHẶT CHẼ VỚI NHAU NHƯNG KHÔNG HẲN LÀ
TRÙNG KHỚP VÌ MỘT BÊN LÀ MỤC TIÊU (AI), MỘT BÊN LÀ PHƯƠNG TIỆN (MACHINE
LEARNING).
CHINH PHỤC AI LÀ MỤC ĐÍCH CHÍNH CỦA
MACHINE LEARNING
Ứng dụng Machine Learning
Ví dụ: Gmail xác định xem một email có phải là spam hay không; các hãng tín dụng xác định xem một khách hàng
có khả năng thanh toán nợ hay không.
Quy trình tổng quan cho bài toán phân lớp
1.Chuẩn bị tập dữ liệu (datasets) và trích chọn đặc trưng (feature extraction)
chuẩn bị bộ dữ liệu để test trên mô hình. Thông thường sẽ sử dụng cross-validation (kiểm tra
chéo) để chia tập datasets thành 2 phần, 1 phần phục vụ cho training (training datasets) và
phần còn lại phục vụ cho mục đích testing trên mô hình (testing dataset). Có 2 cách thường
sử dụng trong cross-validation là splitting và k-fold.
2.Xây dựng mô hình phân lớp (clas
sifier model)
Mục đích của mô hình huấn luyện là tìm ra hàm f(x) và thông qua hàm f tìm được để gán nhãn
cho dữ liệu, bước này thường được gọi là learning hay training.
f(x) = y
x: các feature hay input đầu vào của dữ liệu.
y: nhãn lớp hay output đầu ra.
Thông thường để xây dựng mô hình phân lớp cho bài toán này cần sử dụng các thuật toán học
giám sát (supervised learning) như k-nearest neighbors, Neural Network, SVM, Decision tree,
Naive Bayes.
Sử dụng bộ dữ liệu kiểm thử (testing dataset) để đi tính độ chính xác của mô hình đã xây dự
ng.
Kiểm tra dữ liệu và đánh giá mô
hình phân lớp
Đánh giá mô hình phân lớp và
chọn ra mô hình tốt nhất
Bước cuối cùng sẽ đánh giá mô hình bằng cách đánh giá mức độ lỗi của dữ liệu testing và dữ
liệu training thông qua mô hình tìm được. Nếu không đạt được kết quả mong muốn thì phải
thay đổi các tham số (turning parameters) của các thuật toán học để tìm ra các mô hình tốt
hơn và kiểm tra, đánh giá lại mô hình phân lớp, và cuối cùng chọn ra mô hình phân lớp tốt
nhất cho bài toán.
Tìm hiểu một số khái niệm cơ bản
Sample/record/instance/object(mẫu/bản ghi/ví dụ/
đối tượng) là các dữ liệu được sử dụng trong chương trình học máy.
Thuật toán kNN (K Nearest Neighbor)
Là một trong những thuật toán học có giám sát dùng để phân loại quan sát m
ới bằng cách tìm điểm tương đồng giữa quan sát mới này với dữ liệu sẵn có.
KNN là thuật toán đi tìm đầu ra của một điểm dữ liệu mới bằng cách chỉ dựa trên
thông tin của K điểm dữ liệu trong training set gần nó nhất (K-lân cận), không
quan tâm đến việc có một vài điểm dữ liệu trong những điểm gần nhất này là
nhiễu.
Quy trình thuật toán kNN
Xác định tham số k = số láng giềng gần nhất
Tính khoảng cách đối tượng cần phân lớp với tất cả đối tượng trong training data
Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất đối v
ới đối tượng cần phân lớp
Lấy tất cả các lớp của K láng giềng gần nhất
Dựa vào phần lớp của K để xác định lớp cho đối tượng cần phân lớp
Khoảng cách trong không Trong không gian một chiều, khoảng cách
gian vector giữa hai điểm là trị tuyệt đối giữa hiệu giá trị
của hai điểm đó. Trong không gian nhiều
chiều, khoảng cách giữa hai điểm có thể
được định nghĩa bằng nhiều hàm số khác
nhau, trong đó độ dài đường thằng nổi hai
điểm chỉ là một trường hợp đặc biệt trong đó.
Nhiều thông tin bổ ích (cho Machine
Learning) có thể được tìm thấy tại
Norms (chuẩn) của vector trong tab Math.