1.Tìm hiểu tổng quan các mô hình

Tìm hiểu tổng quan các mô hình, các nhiệm vụ và vấn đề hiện hữu.
1. Object Detection
* Mục đích:
- Phát hiện vật thể là công nghệ quan trọng đằng sau hệ thống hỗ trợ lái xe tiên
tiến (ADAS) cho phép ô tô phát hiện làn đường lái xe hoặc thực hiện phát hiện
người đi bộ để cải thiện an toàn đường bộ. Phát hiện đối tượng cũng hữu ích
trong các ứng dụng như hệ thống giám sát video hoặc truy xuất hình ảnh.
* Có hai phương pháp phát hiện đối tượng:
- Deep Learning
- Machine Learning
- Ngoài ra còn có một số kỹ thuật phổ biến khác như:
+ Phân đoạn hình ảnh và phân tích đốm màu, sử dụng các thuộc tính đối tượng
đơn giản như kích thước, hình dạng hoặc màu sắc
+ Phát hiện đối tượng dựa trên tính năng, sử dụng tính năng trích xuất , đối sánh
và RANSAC để ước tính vị trí của đối tượng
2. Classification
* Classification
- là một quá trình phân loại một tập hợp dữ liệu nhất định thành các lớp. Nó có
thể được thực hiện trên cả dữ liệu có cấu trúc hoặc không có cấu trúc. Quá trình
bắt đầu với việc dự đoán lớp của các điểm dữ liệu đã cho. Các lớp thường được
gọi là đích, nhãn hoặc danh mục.
* Types Of Learners In Classification
- Lazy Learners – Lazy learners simply store the training data and wait until a
testing data appears. The classification is done using the most related data in the
stored training data. They have more predicting time compared to eager learners.
Eg – k-nearest neighbor, case-based reasoning.
- Eager Learners – Eager learners construct a classification model based on the

given training data before getting data for predictions. It must be able to commit
to a single hypothesis that will work for the entire space. Due to this, they take a
lot of time in training and less time for a prediction. Eg – Decision Tree, Naive
Bayes, Artificial Neural Networks.
* Classification Algorithms
- Trong machine learning, classification là một khái niệm học có giám sát, về cơ
bản phân loại một tập dữ liệu thành các lớp. Các vấn đề phân loại phổ biến nhất
là - nhận dạng giọng nói , nhận diện khuôn mặt , nhận dạng chữ viết tay, phân
loại tài liệu, v.v. Nó có thể là bài toán phân loại nhị phân hoặc bài toán nhiều
lớp. Có một loạt các thuật toán machine learning để phân loại trong machine
learning.
+ Logistic Regression:
 Nó là một thuật toán phân loại trong học máy sử dụng một hoặc nhiều biến
độc lập để xác định kết quả. Kết quả được đo bằng một biến phân đôi có
nghĩa là nó sẽ chỉ có hai kết quả có thể xảy ra .
 Mục tiêu của hồi quy logistic là tìm ra mối quan hệ phù hợp nhất giữa biến
phụ thuộc và tập hợp các biến độc lập. Nó tốt hơn các thuật toán phân loại
nhị phân khác như hàng xóm gần nhất vì nó giải thích một cách định lượng
các yếu tố dẫn đến phân loại.
 Ưu điểm và nhược điểm
Hồi quy logistic có ý nghĩa đặc biệt để phân loại, nó rất hữu ích trong việc
hiểu cách một tập hợp các biến độc lập ảnh hưởng đến kết quả của biến phụ
thuộc.
Nhược điểm chính của thuật toán hồi quy logistic là nó chỉ hoạt động khi
biến dự đoán là nhị phân, nó giả định rằng dữ liệu không có giá trị bị thiếu và
giả định rằng các yếu tố dự đoán là độc lập với nhau.
Trường hợp sử dụng
 Xác định các yếu tố nguy cơ gây bệnh
 Phân loại từ
 Dự báo thời tiết
 Ứng dụng bỏ phiếu
+ Naive Bayes Classifier

Nó là một thuật toán phân loại dựa trên định lý Bayes đưa ra giả định về sự độc lập
giữa các yếu tố dự đoán. Nói một cách dễ hiểu, bộ phân loại Naive Bayes giả định
rằng sự hiện diện của một đối tượng cụ thể trong một lớp không liên quan đến sự
hiện diện của bất kỳ đối tượng địa lý nào khác.
Ngay cả khi các tính năng phụ thuộc vào nhau, tất cả các đặc tính này đều đóng góp
vào xác suất một cách độc lập. Mô hình Naive Bayes rất dễ thực hiện và đặc biệt
hữu ích cho các tập dữ liệu tương đối lớn. Ngay cả với một cách tiếp cận đơn giản,
Naive Bayes được biết là làm tốt hơn hầu hết các phương pháp phân loại trong học
máy. Sau đây là định lý Bayes để thực hiện Định lý Naive Bayes.
Ưu điểm và nhược điểm
Bộ phân loại Naive Bayes yêu cầu một lượng nhỏ dữ liệu huấn luyện để ước tính
các tham số cần thiết để có được kết quả. Bản chất chúng cực kỳ nhanh so với các
bộ phân loại khác.
Điểm bất lợi duy nhất là chúng được biết đến là một công cụ ước tính tồi.
 Dự đoán dịch bệnh
 Phân loại tài liệu
 Bộ lọc thư rác

 Phân tích cảm xúc
+ Stochastic Gradient Descent
Đó là một cách tiếp cận rất hiệu quả và đơn giản để phù hợp với các mô hình
tuyến tính. Stochastic Gradient Descent đặc biệt hữu ích khi dữ liệu mẫu có số
lượng lớn . Nó hỗ trợ các chức năng và hình phạt mất mát khác nhau để phân
loại.
Stochastic gradient descent đề cập đến việc tính toán đạo hàm từ mỗi cá thể dữ
liệu huấn luyện và tính cập nhật ngay lập tức.
Ưu điểm duy nhất là dễ thực hiện và hiệu quả trong khi một trở ngại lớn với giảm độ
dốc ngẫu nhiên là nó yêu cầu một số siêu tham số và nhạy cảm với việc mở rộng
tính năng.
 Internet of Things
 Cập nhật các tham số như trọng số trong mạng nơron hoặc hệ số trong hồi
quy tuyến tính
+ K-Nearest Neighbor
Nó là một thuật toán lazy learning lưu trữ tất cả các cá thể tương ứng với dữ liệu
huấn luyện trong không gian n chiều . Nó là một thuật toán lazy learning vì nó
không tập trung vào việc xây dựng một mô hình nội bộ chung, thay vào đó, nó
hoạt động trên việc lưu trữ các phiên bản của dữ liệu đào tạo.
Phân loại được tính toán từ đa số phiếu đơn giản của k lân cận gần nhất
của mỗi điểm. Nó được giám sát và lấy một loạt các điểm được gắn
nhãn và sử dụng chúng để gắn nhãn các điểm khác. Để gắn nhãn một
điểm mới, nó sẽ xem xét các điểm được gắn nhãn gần điểm mới đó
nhất, còn được gọi là hàng xóm gần nhất của nó. Nó có những người
hàng xóm bỏ phiếu, vì vậy bất kỳ nhãn nào mà hầu hết những người
hàng xóm có là nhãn cho điểm mới. “K” là số lượng hàng xóm mà nó
kiểm tra.
Thuật toán này khá đơn giản trong việc triển khai và mạnh mẽ đối với dữ liệu huấn
luyện ồn ào. Ngay cả khi dữ liệu đào tạo lớn, nó khá hiệu quả. Nhược điểm duy nhất
của thuật toán KNN là không cần xác định giá trị của K và chi phí tính toán khá cao
so với các thuật toán khác.
 Các ứng dụng công nghiệp để tìm kiếm các tác vụ tương tự so với các tác vụ
khác
 Ứng dụng phát hiện chữ viết tay
 Nhận dạng hình ảnh
 Nhận dạng video
 Phân tích cổ phiếu
+ Decision Tree
Thuật toán cây quyết định xây dựng mô hình phân loại dưới dạng cấu
trúc cây . Nó sử dụng các quy tắc if-then hoàn toàn như nhau và loại trừ
lẫn nhau trong phân loại. Quá trình tiếp tục với việc chia nhỏ dữ liệu
thành các cấu trúc nhỏ hơn và cuối cùng liên kết nó với một cây quyết
định tăng dần. Cấu trúc cuối cùng trông giống như một cái cây với các
nút và lá. Các quy tắc được học tuần tự bằng cách sử dụng dữ liệu
đào tạo tại một thời điểm. Mỗi khi một quy tắc được học, các bộ giá trị
bao gồm các quy tắc sẽ bị xóa. Quá trình tiếp tục trên tập huấn luyện
cho đến khi đáp ứng được điểm kết thúc.
Cây được xây dựng theo phương pháp phân chia và chinh phục đệ quy từ trên
xuống. Một nút quyết định sẽ có hai hoặc nhiều nhánh và một lá thể hiện sự phân
loại hoặc quyết định. Nút trên cùng trong cây quyết định tương ứng với dự đoán tốt
nhất được gọi là nút gốc và điều tốt nhất về cây quyết định là nó có thể xử lý cả dữ
liệu phân loại và số.
Cây quyết định có ưu điểm là dễ hiểu và dễ hình dung, nó cũng đòi hỏi rất ít sự
chuẩn bị dữ liệu. Điểm bất lợi theo sau với cây quyết định là nó có thể tạo ra các cây
phức tạp có thể bot phân loại hiệu quả. Chúng có thể khá không ổn định vì ngay cả
một sự thay đổi đơn giản trong dữ liệu cũng có thể cản trở toàn bộ cấu trúc của cây
quyết định.
 Khám phá dữ liệu
 Nhận dạng mẫu
 Định giá quyền chọn trong tài chính
 Xác định bệnh tật và các mối đe dọa rủi ro

+ Random Forest
- Là một phương pháp học tập tổng hợp để phân loại, hồi quy, v.v. Nó
hoạt động bằng cách xây dựng vô số cây quyết định tại thời điểm đào
tạo và xuất ra lớp là chế độ của các lớp hoặc phân loại hoặc dự đoán
trung bình (hồi quy) của các cây riêng lẻ.
- Là một công cụ ước tính tổng hợp phù hợp với một số cây trên các ví
dụ con khác nhau của các tập dữ liệu và sau đó sử dụng giá trị trung
bình để cải thiện độ chính xác trong bản chất dự đoán của mô hình. Kích
thước mẫu phụ luôn giống với kích thước đầu vào ban đầu nhưng các
mẫu thường được rút ra để thay thế.
Ưu điểm của rừng ngẫu nhiên là chính xác hơn các cây quyết định do giảm sự lắp
ghép quá mức. Điểm bất lợi duy nhất với bộ phân loại rừng ngẫu nhiên là nó khá
phức tạp trong việc triển khai và dự đoán theo thời gian thực khá chậm.
 Các ứng dụng công nghiệp như tìm xem người nộp đơn xin vay có rủi ro cao
hay rủi ro thấp
 Để dự đoán hư hỏng của các bộ phận cơ khí trong động cơ ô tô
 Dự đoán điểm số lượt chia sẻ trên mạng xã hội
 Điểm hiệu suất
+ Artificial Neural Networks
+ Support Vector Machine

1.Tìm hiểu tổng quan các mô hình

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1.Tìm hiểu tổng quan các mô hình

Uploaded by

Copyright:

Available Formats

Tìm hiểu tổng quan các mô hình, các nhiệm vụ và vấn đề hiện hữu.

- Eager Learners – Eager learners construct a classification model based on the

 Xác định các yếu tố nguy cơ gây bệnh

 Dự báo thời tiết

 Ứng dụng bỏ phiếu

+ Naive Bayes Classifier

Ưu điểm và nhược điểm

Trường hợp sử dụng

 Dự đoán dịch bệnh

 Phân loại tài liệu

 Bộ lọc thư rác

+ Stochastic Gradient Descent

Trường hợp sử dụng

Ưu điểm và nhược điểm

Trường hợp sử dụng

 Ứng dụng phát hiện chữ viết tay

 Nhận dạng hình ảnh

 Nhận dạng video

 Phân tích cổ phiếu

Ưu điểm và nhược điểm

Trường hợp sử dụng

 Khám phá dữ liệu

 Nhận dạng mẫu

 Định giá quyền chọn trong tài chính

 Xác định bệnh tật và các mối đe dọa rủi ro

Trường hợp sử dụng

 Để dự đoán hư hỏng của các bộ phận cơ khí trong động cơ ô tô

 Dự đoán điểm số lượt chia sẻ trên mạng xã hội

 Điểm hiệu suất

+ Artificial Neural Networks

+ Support Vector Machine

You might also like