You are on page 1of 24

Machine

Learning
(Artificial Intelligence)

GVHD: TS.NGUYỄN THI NGỌC ANH


SINH VIÊN THỰC HIỆN: TRẦN NHẬT
LỚP: 20CNTT3
1

[1] GiaoTrinh-TriTueNhanTao-TuMinhPhuong-2014.pdf​
[2] https://machinelearningcoban.com
[3] https://
www.noron.vn/post/tim-hieu-ve-confusion-matrix-trong-machine-learning1fz9nhqo5ux?fbclid=IwA
R2X_XY_H_Ge1kjv0uhOKavLvbNRbtSITk7CIJv3BMQGyXkMuUR41UKrZdY
[4] https://
www.stdio.vn/ai-ml/bai-toan-phan-lop-trong-machine-learning-classification-in-machine-learning-5
15OIh
Machine Learning
Khái niệm

MachineLearning là một tập con của AI và là 
một lĩnh vực nhỏ của Khoa Học Máy Tính.
Cung cấp cho chương trình máy khả
năng tự động học hỏi dựa trên dữ liệu đưa vào
 mà không cần phải lập trình cụ thể.​

 Mối quan hệ giữa AI, Machine
Learning và Deep Learning.
Mối liên hệ giữa AI và Machine Learning

AI THỂ HIỆN MỘT MỤC TIÊU CỦA CON NGƯỜI. MACHINE LEARNING LÀ MỘT PHƯƠNG TIỆN
ĐƯỢC KỲ VỌNG SẼ GIÚP CON NGƯỜI ĐẠT ĐƯỢC MỤC TIÊU ĐÓ.
VÀ THỰC TẾ THÌ MACHINE LEARNING ĐÃ MANG NHÂN LOẠI ĐI RẤT XA TRÊN QUÃNG
ĐƯỜNG CHINH PHỤC AI. 
MACHINE LEARNING VÀ AI CÓ MỐI QUAN HỆ CHẶT CHẼ VỚI NHAU NHƯNG KHÔNG HẲN LÀ
TRÙNG KHỚP VÌ MỘT BÊN LÀ MỤC TIÊU (AI), MỘT BÊN LÀ PHƯƠNG TIỆN (MACHINE
LEARNING).

CHINH PHỤC AI LÀ MỤC ĐÍCH CHÍNH CỦA 
MACHINE LEARNING​ 
Ứng dụng Machine Learning

Hiện nay,Machine Learning tập trung  1. Cảnh báo giao thông (trên ứng dụng


Google Maps)
vào những mục tiêu ngắn hạn như :
Làm cho máy tính có những khả năng
 chuyển giọng nói hành văn bản
 nhận thức cơ bản của con người như
nghe, nhìn, hiểu được ngôn ngữ, giải 
toán, lập trình, …​
Supurvised L
earning​ Học có giám sát (supervised learning). Là dạng học máy

trong đó cho trước tập dữ liệu huấn luyện dưới dạng các ví
dụ cùng với giá trị đầu ra hay giá trị đích. Dựa trên dữ
Học có giám sát liệu huấn luyện, thuật toán học cần xây dựng mô hình hay
hàm đích để dự đoán giá trị đầu ra (giá trị đích) cho các

trường hợp mới.​
 Dựa trên dữ liệu huấn luyện, thuật toán học 
Classification​ cần xây dựng mô hình hay hàm đích để dự 
đoán giá trị đầu ra cho các nhãn/lớp (label/
Regression class) chưa được biết trước đó.​
Classification​

Ứng dụng của bài toán này được sử


dụng rất nhiều và rộng rãi trong thực
tế ví dụ như bài toán nhận dạng
khuôn mặt, nhận diện giọng nói,
phát hiện email spam, ...
Và đối với các bài toán phân lớp dữ
liệu sử dụng các thuật toán học có
giám sát (supervised learning) để
xây dựng mô hình cho bài toán này.
Một bài toán được gọi là classification 
(phân lớp):​

Một bài toán được gọi là classification nếu các label của input


data được chia thành một số hữu hạn nhóm

Ví dụ: Gmail xác định xem một email có phải là spam hay không; các hãng tín dụng xác định xem một khách hàng
có khả năng thanh toán nợ hay không.
Quy trình tổng quan cho bài toán phân lớp

1.Chuẩn bị tập dữ liệu (datasets) và trích chọn đặc trưng (feature extraction)​
chuẩn bị bộ dữ liệu để test trên mô hình. Thông thường sẽ sử dụng cross-validation (kiểm tra
chéo) để chia tập datasets thành 2 phần, 1 phần phục vụ cho training (training datasets) và
phần còn lại phục vụ cho mục đích testing trên mô hình (testing dataset). Có 2 cách thường
sử dụng trong cross-validation là splitting và k-fold.
2.Xây dựng mô hình phân lớp (clas
sifier model)​
Mục đích của mô hình huấn luyện là tìm ra hàm f(x) và thông qua hàm f tìm được để gán nhãn
cho dữ liệu, bước này thường được gọi là learning hay training.
f(x) = y
x: các feature hay input đầu vào của dữ liệu.
y: nhãn lớp hay output đầu ra.
Thông thường để xây dựng mô hình phân lớp cho bài toán này cần sử dụng các thuật toán học
giám sát (supervised learning) như k-nearest neighbors, Neural Network, SVM, Decision tree,
Naive Bayes.
Sử dụng bộ dữ liệu kiểm thử (testing dataset) để đi tính độ chính xác của mô hình đã xây dự
ng.​
Kiểm tra dữ liệu và đánh giá mô 
hình phân lớp​
Đánh giá mô hình phân lớp và
chọn ra mô hình tốt nhất

Bước cuối cùng sẽ đánh giá mô hình bằng cách đánh giá mức độ lỗi của dữ liệu testing và dữ
liệu training thông qua mô hình tìm được. Nếu không đạt được kết quả mong muốn thì phải
thay đổi các tham số (turning parameters) của các thuật toán học để tìm ra các mô hình tốt
hơn và kiểm tra, đánh giá lại mô hình phân lớp, và cuối cùng chọn ra mô hình phân lớp tốt
nhất cho bài toán.
Tìm hiểu một số khái niệm cơ bản

 Sample/record/instance/object(mẫu/bản ghi/ví dụ/
đối tượng) là các dữ liệu được sử dụng trong chương trình học máy.​
Thuật toán kNN (K Nearest Neighbor)​

 Là một trong những thuật toán học có giám sát dùng để phân loại quan sát m
ới bằng cách tìm điểm tương đồng giữa quan sát mới này với dữ liệu sẵn có.​
 KNN là thuật toán đi tìm đầu ra của một điểm dữ liệu mới bằng cách chỉ dựa trên
thông tin của K điểm dữ liệu trong training set gần nó nhất (K-lân cận), không
quan tâm đến việc có một vài điểm dữ liệu trong những điểm gần nhất này là
nhiễu.
Quy trình thuật toán kNN​

 Xác định tham số k = số láng giềng gần nhất​
 ​Tính khoảng cách đối tượng cần phân lớp với tất cả đối tượng trong training data​
 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất đối v
ới đối tượng cần phân lớp
 Lấy tất cả các lớp của K láng giềng gần nhất​
 Dựa vào phần lớp của K để xác định lớp cho đối tượng cần phân lớp​

Khoảng cách trong không  Trong không gian một chiều, khoảng cách
 gian vector​ giữa hai điểm là trị tuyệt đối giữa hiệu giá trị
của hai điểm đó. Trong không gian nhiều
chiều, khoảng cách giữa hai điểm có thể
được định nghĩa bằng nhiều hàm số khác
nhau, trong đó độ dài đường thằng nổi hai
điểm chỉ là một trường hợp đặc biệt trong đó.
Nhiều thông tin bổ ích (cho Machine
Learning) có thể được tìm thấy tại 
Norms (chuẩn) của vector trong tab Math.

You might also like