You are on page 1of 7

BỘ THÔNG TIN VÀ TRUYỀN THÔNG

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG


---------------------------------------

BÁO CÁO TIỂU LUẬN


PHÁT TRIỂN CÁC HỆ THỐNG DỰA TRÊN TRI THỨC

Đề tài: Mạng U-Net đếm đối tượng


Giảng viên hướng dẫn: PGS.TS Nguyễn Quang Hoan
Sinh viên: Nguyễn Quang Thiện B18DCCN638

Hà Nội 2023
Lời mở đầu

Ngày nay không ai có thể phủ nhận vai trò cực kỳ quan trọng của máy tính trong
nghiên cứu khoa học kỹ thuật cũng như trong đời sống. Máy tính hỗ trợ con người tối đa
trong việc giải quyết những vấn đề tưởng chừng nan giải nhờ vào tốc độ tính toán và xử
lý cao vượt trội của nó so với con người. Cùng với sự phát triển đó, nhận dạng trở thành
bài toán thu hút được nhiều sự quan tâm, nghiên cứu. Đặc biệt là trong vài thập niên gần
đây, do sự thúc đẩy của quá trình tin học hoá trong mọi lĩnh vực, bài toán nhận dạng
không còn dừng lại ở mức độ nghiên cứu nữa mà nó trở thành một lĩnh vực được áp dụng
rộng rãi trong thực tế và đạt được nhiều thành tựu rực rỡ. Trong số rất nhiều các bài toán
nhận dạng nổi lên là bài toán nhận dạng chữ viết bởi tính ứng dụng phong phú của nó
trong đời sống con người. Các ứng dụng có ý nghĩa thực tế lớn có thể kể đến như: Nhận
dạng biển số xe, phát hiện và nhận dạng khuôn mặt, theo dõi đối tượng, ô tô tự lái,.....
Hiện nay, bài toán nhận dạng đối tượng trong ảnh đã được giải quyết gần như trọn
vẹn (sản phẩm như Google Lens, CamFind, Veracity, Photo Sherlock,…). Tuy nhiên trên
thế giới cũng như ở Việt Nam bài toán nhận dạng đối tưởng trong ảnh còn đang là thách
thức lớn đối với các nhà nghiên cứu. Bài toán chưa thể giải quyết được trọn vẹn vì nó
còn phụ thuộc quá nhiều vào chất lượng ảnh, vị trí của đối tượng trong ảnh,
Xuất phát từ những nhu cầu thực tế, đang cần có những nghiên cứu về vấn đề này
và ý thức được những lợi ích sẽ mang lại. Chính vì vậy em đã chọn đề tài :”Nghiên cứu
mạng U-Net nhận dạng đối tượng” làm đồ án tốt nghiệp với mong muốn phần nào áp
dụng vào các bài toán thực tế.
Trong phạm vi đồ án của mình, em xin trình bày một hệ thống nhận dạng ký tự có
thể phát hiện, nhận dạng đối tượng trong một bức ảnh thông thường. Với mục tiêu như
vậy, bố cục của tiểu luận sẽ gồm 4 chương
Chương 1. Tổng quan
 Một số cách xác định đối tượng trong ảnh
 Tìm hiểu về mạng U-net
Chương 2. Tìm hiểu về cách xác định ảnh sử dụng mạng U-net
- Phân loại các loại image segmentation
 Segmatic segmentation
 Instance segmentation
 Ứng dụng của mạng U-net trong bài toán Segmentation
Chương 3. Xây dụng hệ thống xác định hình ảnh sử dụng mạng U-net
- Trình bày các kết quả của công việc theo mục tiêu đã nêu.
- Bàn luận về từng kết quả đã đạt được.
- Bàn luận giữa mối tương quan giữa các kết quả.
Chương 4. Kết luận và hướng nghiên cứu tiếp theo
- Kết luận
- Hướng phát triển
Chương 1: Tổng quan về đề tài

I. Tổng quan về Image Processing


Kể từ những năm 2010, khi học sâu ngày càng phát triển, chất lượng của các
thuật toán phát hiện đối tượng cũng liên tục được nâng cấp và cải tiến. Dưới đây là
một số thuật toán phổ biến nhất, phương thức hoạt động và ưu nhược điểm của
chúng khi vận hành. .
1. Các bài toán thường gạp trong image processing
a. Image Classification
Image Classification hay hiểu đơn giản là phân loại hình ảnh là một trong
những nhiệm vụ phổ biến trong Computer Vision. Mục tiêu chính của bài toán này
đó chính là phân loại một hình ảnh đầu vào (input) thành một nhãn (label) đầu ra
(output). Một ví dụ đơn giản chúng ta cần phân biệt bức ảnh đầu vào là con chó
hay con mèo chẳng hạn.
b. Image Detection
Image Detection đề cập đến khả năng của hệ thống máy tính và phần mềm
để định vị các đối tượng trong một hình ảnh và xác định từng đối tượng. Object
Detection đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện xe, đếm số
người đi bộ, hệ thống bảo mật và xe không người lái. Có nhiều cách để nhận diện
đối tượng có thể được sử dụng cũng như trong nhiều lĩnh vực thực hành. Giống
như mọi công nghệ khác, một loạt các ứng dụng sáng tạo và tuyệt vời của Object
Detection sẽ đến từ các lập trình viên và các nhà phát triển phần mềm.
c. Image Segmantation
Image Segmentation có nghĩa là phân khúc hình ảnh, hàm ý rằng bài toán
sẽ phân chia một hình ảnh thành nhiều vùng ảnh khác nhau. Image Segmentation
cũng có chung mục tiêu như object detection là phát hiện ra vùng ảnh chứa vật thể
và gán nhãn phù hợp cho chúng. Tuy nhiên tiêu chuẩn về độ chính xác của Image
Segmentation ở mức cao hơn so với Object Detection khi nó yêu cầu nhãn dự báo
đúng tới từng pixel.
2. Phương pháp mô tả đặc trưng (Histogram of Oriented Gradients – HOG)
Phương pháp mô tả đặc trưng (Histogram of Oriented Gradient – HOG) là
một trong những phương pháp phát hiện đối tượng lâu đời nhất. Nó được giới thiệu
lần đầu tiên vào năm 1986. HOG được sử dụng như 1 thuật toán trích chọn đặc
trưng của đối tượng trong ảnh.
Mục đích của HOG là trừu tượng hóa đối tượng bằng cách trích xuất ra
những đặc trưng của đối tượng đó và bỏ đi những thông tin không hữu ích. Vì vậy,
HOG được sử dụng chủ yếu để mô tả hình dạng và sự xuất hiện của một đối tượng
trong ảnh. HOG dựa trên việc chia ảnh đầu vào thành các ảnh con, tính toán
histogram của ảnh để tổng hợp và trích rút ra các vector gọi là vector đặc trưng ứng
với từng đối tượng.
Bản chất của phương pháp HOG là sử dụng thông tin về sự phân bố của các
cường độ gradient (intensity gradient) hoặc của hướng biên (edge directions) để
mô tả các đối tượng cục bộ trong ảnh. Các toán tử HOG được cài đặt bằng cách
chia nhỏ một bức ảnh thành các vùng con, được gọi là cell và với mỗi cell, ta sẽ
tính toán một histogram về các hướng của gradients cho các điểm nằm trong cell.
Ghép các histogram lại với nhau ta sẽ có một biểu diễn cho bức ảnh ban đầu. Để
tăng cường hiệu năng nhận dạng, các histogram cục bộ có thể được chuẩn hóa về
độ tương phản bằng cách tính một ngưỡng cường độ trong một vùng lớn hơn cell,
gọi là các khối (blocks) và sử dụng giá trị ngưỡng đó để chuẩn hóa tất cả các cell
trong khối. Kết quả sau bước chuẩn hóa sẽ là một vector đặc trưng có tính bất biến
đối với các thay đổi về điều kiện ánh sáng.
2. Mạng nơ-ron tích chập theo vùng (R-CNN)
Mạng nơ-ron tích chập theo vùng (R-CNN) là một cải tiến mới trong kỹ
thuật phát hiện đối tượng từ các phương pháp trước đây của HOG và SIFT. Trong
các mô hình R-CNN thường trích xuất các đặc trưng cần thiết nhất của đối tượng
(thường là khoảng 2000 đặc trưng) bằng cách sử dụng 1 giải thuật chọn lọc (gọi là
selective search). Quá trình lựa chọn các đặc trưng quan trọng nhất có thể được
tính toán với sự trợ giúp của thuật toán tìm kiếm chọn lọc.
Với R-CNN, việc trích xuất các vùng region proposal được thực hiện thông
qua thuật toán Selective Search để trích chọn ra các vùng có khả năng chứa đối
tượng (khoảng 2000 vùng). Sau đó, các vùng (ảnh) này được resize về 1 kích thước
cố định và đưa qua 1 pretrained CNN model (imagenet), rồi từ đó tiến hành xác
định offset và nhãn đối tượng. Tuy nhiên, việc đưa các vùng region proposal qua
mạng CNN 2000 lần khiến tốc độ thực thi của model cực kì chậm!
3. Faster R-CNN
Mặc dù mô hình R-CNN có thể thực hiện tính toán phát hiện đối tượng và
đạt được hiệu quả nhưng vẫn tồn đọng nhiều điểm bất cập, điển hình là tốc độ mô
hình. Vì vậy, một số phương pháp đã được phát triển để giải quyết vấn đề này và
xử lý các nhược điểm của R-CNN. Trong số đó nổi bật nhất chính là mô hình Fast
R-CNN và Faster R-CNN.
Với Faster-RCNN, thay vì việc sử dụng Selective Search, mô hình được
thiết kế thêm 1 mạng con gọi là RPN (Region Proposal Network) để trích rút các
vùng có khả năng chứa đối tượng của ảnh. Nhìn chung, sau khi thực hiện RPN, các
bước xử lý sau tương tự như Fast-RCNN nhưng nhanh hơn nhiều (vì không sử
dụng Selective Search) và được thiết kế như 1 mạng end-to-end trainable network!
Mô hình Faster R-CNN là một trong những phiên bản tốt nhất trong Fast R-
CNN và cải thiện tốc độ hoạt động rất nhiều so với các phiên bản tiền nhiệm.
Trong khi mô hình R-CNN và Fast R-CNN sử dụng thuật toán tìm kiếm chọn lọc
để tính toán các đề xuất vùng, thì phương pháp Faster R-CNN sẽ thay thế phương
pháp hiện có này bằng một mạng đề xuất các vùng đặc trưng (Region Proposal
Network – RPN).
Mạng RPN giảm thời gian tính toán để trích chọn đặc trưng, thường là 10ms
cho mỗi hình ảnh. Mạng này bao gồm các lớp tích hợp mà từ đó chúng ta có thể
thu được các đặc trưng cần thiết thông qua từng lớp tích chập liên tiếp nhau. Để
đưa ra các vùng đặc trưng, chúng ta sử dụng các hộp neo (anchor box) với các tỉ lệ,
kích thước và độ lớn khác nhau. Đối với mỗi anchor box tại RPN, chúng ta thực
hiện 1 binary classifier để phân loại vùng trích chọn đó có khả năng chứa đối
tượng hay không, và dự đoán ra các hộp giới hạn (bounding box) tương ứng.
Sau đó, các vùng trích chọn sẽ được đưa qua 1 bộ lọc gọi là Non maximum
suppression (NMS) để loại bỏ các bounding box dư thừa. Đầu ra của NMS được
cho qua 1 lớp gọi là RoI Align (Region of Interest) để cố định kích thước đầu ra
của các vùng đặc trưng đã trích chọn được. Sau đó, phần xử lý tiếp theo của mô
hình sẽ tương tự như mô hình Fast-RCNN
II. Tổng quan về mạng U-Net
1. Mạng U-Net là gì
U-Net là một mạng nơ-ron tích chập ban đầu được phát triển để phân đoạn
các hình ảnh y sinh. Kiến trúc của nó trông giống như chữ U và do đó có tên là U-
Net. Kiến trúc của nó được tạo thành từ hai phần, phần bên trái – trích xuất đặc
trưng (encoder) và phần bên phải – giải mã đặc trưng (decoder).
2. Kiến trúc mạng U-Net

3. Cách cài đặt


4. Nhược điểm của mạng U-Net

You might also like