WTT 2

IV.
Nhận dạng hình ảnh với Machine Learning

Hiện nay, hầu như mọi việc xử lý hình ảnh do CPU đảm nhiệm, do thời gian xử lý
nhanh và chính xác; nhưng trước khi CPU đủ mạnh để có thể hỗ trợ việc này thì
Machine Learning đã sớm trở thành tiêu chuẩn cho xử lý hình ảnh, nhân dạng hình ảnh.
Chúng ta sẽ tìm hiểu về ba mô hình Machine Learning nhận dạng hình ảnh phổ biến
nhất.
 Support Vector Machines (SVM)
- SVM là một giải thuật Machine Learning dựa trên lý thuyết học thống kê
do Vapnik và Chervonenkis (1974), Vapnik (1999) xây dựng.
- SVM hoạt động bằng cách tạo biểu đồ của hình ảnh có chứa các đối
tượng mục tiêu và những hình ảnh không có. Sau đó, thuật toán sẽ so
sánh các giá trị của biểu đồ kiểm tra xem có khớp hay không.
 Bag of Features Models
Hoạt động theo 4 bước
1. Quét hình ảnh trích xuất cái tính năng (đặc điểm)
2. Thuật toán sẽ ghi nhớ cái “visual vocabulary”
3. Xác định số lượng các tính năng bằng cách sử dụng visual
vocabulary
4. Biểu diễn hình ảnh theo tần số của các “visual words”,so sánh.
1
 Viola-Jones Algorithm
- Là một thuật toán nhận dạng
khuôn mặt được sử dụng rộng
rãi từ thời trước CNN (Mạng nơ
ron thần kinh).
- Viola-Jones hoạt động bằng
cách quét hình ảnh và trích xuất
các đặc điểm, sau đó chuyển
qua bộ phân loại. Để tìm thấy
kết quả phù hợp, hình ảnh cần
có kết quả trùng khớp với mỗi
bộ phân loại này.
Nhận dạng khuôn mặt với Viola-Jones Algorithm

(https://www.semanticscholar.org/paper/)
V. Mô hình Deep Learning Image Recognition

Trong nhận dạng hình ảnh, việc sử dụng Convolutional Neural Networks (CNN) cũng
gọi là là Deep Learning Image Recognition. Machine Learning không thể so sánh được
với CNN. Không những xử lý nhanh CNN còn đem lại kết quả chính xác hơn, nhận dạng
cùng lúc nhiều đối tượng trong một ảnh ngay khi hình ảnh bị biến dạng.
Con người có thể nhìn, nhận dạng, phân loại vô số đối tượng, ở góc cạnh máy móc
thuật toán, Convolutional Neural Networks thậm chí còn làm tốt hơn chúng ta các
nhiệm vụ phân loại đối tượng thành như mèo, thỏ hoặc một loại cá cụ thể.
Các mô hình Deep Learning phổ biến nhất như YOLO , SSD và R-CNN sử dụng các
lớp tích chập để phân tích cú pháp một hình ảnh hoặc ảnh. Một lớp xử lý màu sắc, một
lớp khác hình dạng, v.v. Cuối cùng, kết quả tổng hợp của tất cả các lớp này được tính
chung khi xác định xem có tìm thấy kết quả trùng khớp hay không.
2
Nhận dạng hình ảnh AI với phát hiện và phân loại đối tượng bằng Deep Learning
(Ảnh minh họa)
Các thuật toán nhận dạng hình ảnh phổ biến
Đối với nhận dạng hình ảnh,thuật toán chỉ là phần còn lại. Mặc dù tất cả đều là Deep
Learning, nhưng cách tiếp cận, nhận ra của chúng đối với các lớp đối tượng khác nhau
sẽ khác nhau. Hãy tìm hiểu một số thuật ngày nay con người sử dụng rộng rãi.
Faster Region - based CNN
- Faster R-CNN là phương pháp tốt nhất, thành công nhất của họ thuật
toán R-CNN bao gồm R-CNN và Fast R-CNN.
- Nó sử dụng Mạng đề xuất khu vực (RPN) để phát hiện tính năng cùng
với RCNN nhanh để nhận dạng hình ảnh, điều này làm cho nó được nâng
cấp đáng kể so với người tiền nhiệm.
- Faster R-CNN có thể xử lý hình ảnh dưới 200 mili giây, trong khi R-
CNN mất 2 giây trở lên.
3
So sánh giữa R-CNN với Faster R-CNN
(https://machinelearningmastery.com/)
- Năm 2017, đánh dấu thời điểm đỉnh cao của mô hình này và tiếp tục đạt
được nhiều kết quả gần như là tiên tiến nhất về nhận dạng đối tượng.
Single Shot Detector (SSD)

- Là một thuật toán rất phát triển, với SSD ta có thể phát hiện ra nhiều đối
tượng trong ảnh với một lần thực hiện trong khi các thuật toán khác phải
thực hiện tận hai lần. Do có thế mạnh là tốc độ nên nó được sử dụng hầu
hết tròng các ứng dụng real-time.
- TRong khi RCNN vẽ các hộp xung quanh một tập hợp các điểm được đề
xuất, Single Shot Detectors lại chia hình ảnh thành các hộp giới hạn dưới
dạng lưới theo các tỷ lệ khung hình khác nhau.
- Điều này làm cho SSD rất linh hoạt, chính xác và dễ thực hiện. SSD có
thể xử lý một hình ảnh trong vòng 125 mili giây.
4
You Only Look Once (YOLO)
- Đúng với tên gọi “chỉ nhìn một lần”, thuật toán xử lý một khung hình chỉ
một lần bằng cách sử dụng lưới cố định và xác định xem lưới có chứa
hình ảnh hay không.
Tóm tắt các quá trình của mô hình YOLO

(https://machinelearningmastery.com/)
- Theo cách trên YOLO cho ta một thời gian xử lý nhanh hơn nhiều so với
SSD,bù lại nó lại có độ chính xác thấp hơn 1 chút.
- Trong họ thuật toán YOLO, bản thể YOLOv3 được xem như là cá thể tốt
nhất, với tốc độ thần tốc 4 mili giây cho 1 khung hình hay 244 FPS.
https://machinelearningmastery.com/object-recognition-with-deep-learning/
https://www.slideshare.net/oliviazou1/bagof

WTT 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

WTT 2

Uploaded by

Copyright:

Available Formats

IV.

Nhận dạng hình ảnh với Machine Learning

Nhận dạng khuôn mặt với Viola-Jones Algorithm

V. Mô hình Deep Learning Image Recognition

Single Shot Detector (SSD)

Tóm tắt các quá trình của mô hình YOLO

You might also like