You are on page 1of 13

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÁO CÁO ĐỀ TÀI


NHẬN DIỆN BIỂN BÁO GIAO THÔNG BẰNG MÔ HÌNH
CNN

MÔN HỌC: KHOA HỌC NHẬN THỨC


GIẢNG VIÊN: TS. Nguyễn Thế Hoàng Anh

Nhóm số:
Các thành viên:
1. Nguyễn Duy Thành
2. Trần Đức Anh
3. Phạm Đức Anh

Hà Nội – 2022
Tóm tắt:
Xe tự lái là một công nghệ mới đang được nghiên cứu và phát triển bởi nhiều tập đoàn
hàng đầu trên thế giới. Thang đo cấp độ của xe tự lái bắt đầu từ cấp 0 – không có tính năng tự
động nào – cho tới cấp độ 5 – thay thế hoàn toàn thao tác điều khiển của con người. Nhưng để
đạt được khả năng chính xác và an toàn khi di chuyển thì còn cần nhận biết và tuân theo các
quy tắc giao thông cụ thể là các biển báo giao thông. Báo cáo này sẽ tập trung vào nghiên cứu
mô hình mạng tích chập CNN (Convolutional Neural Network) để nhận diện các loại biển báo
giao thông. Dữ liệu ảnh được thu thập từ nguồn dữ liệu mở kaggle với tập dữ liệu gồm hơn
50000 ảnh. Sau kiểm nghiệm với mô hình mạng tích chập chúng tôi đã thu được kết quả với độ
chính xác lên tới 95%. Kết quả cho thấy, mô hình phù hợp để áp dụng với bài toán nhận diện
biển báo giao thông.
Từ khóa: Convolutional Neural Network, nhận diện biển báo.
Mục lục
1. Đặt vấn đề......................................................................................................................5
2. Cơ sơ lý thuyết...............................................................................................................5
2.1. Mạng Neural tích chập (CNN)........................................................................................5
2.2. Thư viện Keras................................................................................................................7
3. Các bước thực hiện........................................................................................................8
3.1. Tìm hiểu về tập dữ liệu....................................................................................................8
3.2. Tiền xử lý dữ liệu..........................................................................................................10
3.3. Xây dựng mô hình CNN................................................................................................11
3.4. Huấn luyện mô hình......................................................................................................12
3.5. Thiết kế giao diện người dùng.......................................................................................12
4. Đánh giá kết quả..........................................................................................................13
5. Kết luận.......................................................................................................................13
Mục lục hình ảnh
Hình 1. Chức năng một số cảm biến trên xe tự lái............................................................5
Hình 2. Lưu đồ mô hình CNN...........................................................................................6
Hình 3. Các loại biển báo có trong tập dữ liệu..................................................................8
Hình 4. Ảnh đầu vào ở một số điều kiện khác nhau........................................................10
Hình 5. Lưu đồ tiền xử lý dữ liệu....................................................................................11
Hình 6. Các layer trong mô hình mạng CNN..................................................................12
Bảng 1. Đặt vấn đề
Công nghệ xe tự lái hay xe tự hành là một công nghệ mới đang được nhiều nhà nghiên
cứu và các công ty công nghệ lớn nghiên cứu, phát triển cho các dòng xe riêng của mình. Công
nghệ này là tập hợp việc thu thập dữ liệu từ các thiết bị cảm biến với khả năng cảm nhận môi
trường xung quanh như camera, radar, sonar, laser, lidar, định vị GPS với việc tính toán các dữ
liệu thu được bằng trí tuệ nhân tạo AI. Các cảm biến trên xe có chức năng khác nhau phục vụ
cho các tác vụ riêng biệt cho việc tự động lái của xe.

Bảng 2. Chức năng một số cảm biến trên xe tự lái


Hình 1 thể hiện chức năng của các cảm biến trên công nghệ xe tự lái. Ví dụ như radar
thực hiện bài toán như phát hiện điểm mù hay cảnh báo va chạm phía sau xe. Hoặc sử dụng
lidar để phát hiện người đi bộ hay tránh va chạm với các phương tiện khác. Nhưng để đạt được
khả năng chính xác và an toàn khi di chuyển thì còn cần nhận biết và tuân theo các quy tắc
giao thông, cụ thể là các biển báo giao thông.
Trong phạm vi bài báo cáo này, chúng tôi tập trung giải quyết bài toán nhận diện biển
báo giao thông. Bài toán nhận diện biển báo giao thông đã được thực hiện bằng nhiều thuật
toán khác nhau như SVM, trích xuất đặc trưng HOG. Ở đây, chúng tôi sử dụng mô hình mạng
neural tích chập CNN để thực hiện bài toán nhận diện biển báo giao thông.

Bảng 3. Cơ sơ lý thuyết
3.1. Mạng Neural tích chập (CNN)
Mạng Neural tích chập (CNN) là một thuật toán Deep Learning có thể lấy hình ảnh đầu
vào, phân biệt được các đặc trưng/đối tượng khác nhau trong ảnh và gán các giá trị trọng số
(weights), độ lệch (bias) cho từng đặc trưng/ đối tượng. Vai trò của mạng CNN là giảm chiều
hình ảnh thành một dạng dễ xử lý hơn nhưng vẫn giữ lại được các đặc trưng quan trọng để có
thể dự đoán tốt.
Ý tưởng của mô hình CNN là sử dụng các bộ lọc trên ảnh để trích xuất các đặc trưng ảnh
trước khi đưa vào huấn luyện mạng neural. Sau khi đưa qua các bộ lọc, đặc trưng của ảnh sẽ
được làm nổi bật từ đó có thể sử dụng chúng để nhận diện hình ảnh.

Bảng 4. Lưu đồ mô hình CNN


Hệ thống sử dụng mô hình CNN được mô tả như Hình 2. Đầu tiên, dữ liệu đầu vào
được gán nhãn. Sau đó, tại quá trình phân chia dữ liệu, tập ảnh sẽ được phân thành tập
ảnh huấn luyện (training), tập ảnh thử (test) và tập ảnh thẩm định (validation). Tập ảnh
huấn luyện và tập ảnh thẩm định sẽ được đưa vào để huấn luyện cho mô hình CNN để
tìm ra bộ giá trị trọng số (weights). Từ bộ giá trị trọng số huấn luyện được sẽ được thử
trên bộ ảnh thử để đánh giá kết quả.
Trong CNN bao gồm các lớp cơ bản như sau:
Lớp mạng tích chập (convolution layer): có vai trò phát hiện các đặc trưng của ảnh
như các góc, cạnh, màu sắc, đường ngang, dọc các hình dạng nổi bật của hình ảnh đầu
vào. Sau khi ảnh được cho đi qua các lớp tích chập, ảnh sẽ được làm nổi bật các đặc
trưng có trong ảnh, kết quả đầu ra thể hiện tính chất cục bộ của ảnh.
Lớp tổng hợp (pooling layer): chịu trách nhiệm làm giảm chiều kết quả tích chập,
giúp đơn giản hóa thông tin đầu ra để giảm bớt số lượng neurol. Ví dụ như sau khi đi
qua lớp Max pooling 2x2, sẽ chọn một điểm ảnh có giá trị lớn nhất cho mỗi một vùng
có kích thước 2x2, kết quả cho ra một hình ảnh đầu ra chỉ bằng hình ảnh ban đầu
nhưng các đặc trưng của ảnh vẫn được giữ lại, thậm chí có thể nổi bật hơn so với ban
đầu.
Hàm phi tuyến (Nonlinear layer): hàm kích hoạt với nhiệm vụ chính là mô phỏng
các neural có tỷ lệ truyền xung qua axon. Hiện nay, hàm Relu được sử dụng phổ biến vì
những ưu điểm nổi bật như: hỗ trợ tính toán nhanh, đơn giản và hạn chế tình trạng
vanishing gradient.
Lớp liên kết đầy đủ (Fully Connected Layer): sau khi ảnh đi qua nhiều lớp ở trước
thì mô hình đã học được tương đối các đặc trưng của ảnh. Sau đó, lớp liên kết đầy đủ sẽ
chuyển ma trận đặc trưng thu được ở các tầng trước thành vector thể hiện xác suất dự
đoán label của ảnh.
4.1. Thư viện Keras
Keras là một open source cho Neural Network được viết bằng ngôn ngữ python.
Nó là một thư viện được phát triển vào năm 2005 bởi Francois Chollet – một kỹ sư
nghiên cứu về Deep learning. Keras được coi là một thư viện high level với phần low
level (back-end) có thể là TensorFlow, CNTK hoặc Theano. Keras được thiết kế để dễ
dàng tạo ra mô hình học sâu.
Keras tận dụng các kỹ thuật tối ưu hóa khác nhau để làm API cho mạng thần kinh
cấp cao dễ dàng va hiệu quả hơn. Nó hỗ trợ nhiều tính năng như: API nhất quán, đơn
giản và có thể mở rộng; cấu trúc tối thiểu – dễ dàng đạt được kết quả; hỗ trợ trên nhiều
nền tảng và backend; thân thiện với người dùng chạy bằng CPU hay GPU; khả năng mở
rộng tính toán cao.
Những ưu điểm của thư viện Keras gồm có:
 Dễ dàng để kiểm tra.
 Viết bằng ngôn ngữ Python giúp đơn giản hóa.
 Hỗ trợ cả mạng convolution và recurrent.
 Cộng đồng lớn nên dễ tìm được hỗ trợ.
 Keras hỗ trợ huấn luyện trên nhiều GPU phân tán.
Bảng 5. Các bước thực hiện
5.1. Tìm hiểu về tập dữ liệu
Tập dữ liệu được chúng tôi sử dụng có tên là: German Traffic Sign Recognition
Benchmark Dataset (GTSRB Dataset). Đây là một tập dữ liệu opensource về biển báo
giao thông khá nổi tiếng có trên Kaggle. Tập dữ liệu chứa hơn 50000 ảnh về các loại
biển báo giao thông khác nhau. Dữ liệu trong tập được phân loại thành 43 lớp khác nhau
thể hiện cho 43 loại biển báo.

Bảng 6. Các loại biển báo có trong tập dữ liệu


Hình 3 thể hiện hình những biển báo có trong tập dữ liệu GTSRB. Nhưng dữ liệu
về các loại biển báo không được phân chia đồng đều, có một số lớp chứa rất nhiều hình
ảnh trong khi một số lớp sẽ có rất ít. Số lượng ảnh có trong mỗi lớp được thể hiện ở
trong Bảng 1.
Tên biển báo Số lượng ảnh
Speed limit (20km/h) 210
Speed limit (30km/h) 2220
Speed limit (50km/h) 2250
Speed limit (60km/h) 1410
Speed limit (70km/h) 1980
Speed limit (80km/h) 1860
End of speed limit (80km/h) 420
Speed limit (100km/h) 1441
Speed limit (120km/h) 1419
No passing 1470
No passing veh over 3.5 tons 2010
Right-of-way at intersection 1320
Priority road 2100
Yield 2160
Stop 780
No vehicles 630
Veh > 3.5 tons prohibited 420
No entry 111
General caution 1200
Dangerous curve left 210
Dangerous curve right 360
Double curve 330
Bumpy road 390
Slippery road 510
Road narrows on the right 270
Road work 1500
Traffic signals 600
Pedestrians 240
Children crossing 540
Bicycles crossing 270
Beware of ice/snow 450
Wild animals crossing 780
End speed + passing limits 240
Turn right ahead 689
Turn left ahead 420
Ahead only 1200
Go straight or right 390
Go straight or left 210
Keep right 2070
Keep left 300
Roundabout mandatory 360
End of no passing 240
End no passing veh > 3.5 tons 240

Bảng 7. Số lượng ảnh có trong từng lớp


Ngoài ra, dữ liệu ảnh trong từng lớp được lấy ở nhiều điều kiện khác nhau để đảm
bảo độ chính xác khi huấn luyện.

Ảnh bị mờ Ảnh bị tối màu


Bảng 8. Ảnh đầu vào ở một số điều kiện khác nhau
8.1. Tiền xử lý dữ liệu
Đối với tập dữ liệu về biển báo giao thông mà chúng tôi đã đề cập tới ở phần trên,
chúng tôi sẽ đọc và tiền xử lý dữ liệu theo các bước được thể hiện trong lưu đồ được mô
tả bởi Hình 5.
Bảng 9. Lưu đồ tiền xử lý dữ liệu
Đầu tiên, chúng tôi đọc từng ảnh trong tập dữ liệu và lớp của các ảnh. Tiếp theo,
chúng tôi resize ảnh về kích thước 30x30 và lưu vào một ma trận ảnh để làm đầu vào
cho mô hình CNN. Cùng với đó, các nhãn lớp của các ảnh sẽ được chuyển về dạng
One-hot Encoding. One-hot Encoding thể hiện sự phân nhãn của các lớp là một vector
kích thước m biển thị cho số lớp gồm các giá trị nhị phân 0 và 1, vị trí của phần tử 1 sẽ
xác định label của ảnh tương ứng.
Sau đó, ma trận ảnh sẽ được chia ra thành tập huấn luyện (train set) và tập ảnh thử
(test set) với số lượng ảnh được thể hiện trong Bảng 2.
Tập huấn luyện 39219
Tập thử 12631

Bảng 10. Tỷ lệ chia dữ liệu ảnh


10.1. Xây dựng mô hình CNN
Mô hình mạng neural tích chập được chúng tôi đề xuất được xây dựng bằng thư
viện Keras. Mô tả các lớp trong mô hình được thể hiện trong Hình 6 như sau:
Bảng 11. Các layer trong mô hình mạng CNN
11.1. Huấn luyện mô hình
Với mô hình đã xây dựng ở phần trên, chúng tôi huấn luyện qua số lượng epochs là
15 và batch size là 32. Trong khi huấn luyện, chúng tôi chọn một tập validation để kiểm
tra độ chính xác mô hình lúc huấn luyện nhằm tránh hiện tượng Overfitting. Tập
validation được chúng tôi lấy từ một phần của tập huấn luyện với tỉ lệ là 20%.
Kết quả sau quá trình huấn luyện cho mô hình sẽ được trình bảy trong phần sau
của bài báo cáo.
11.2. Thiết kế giao diện người dùng
Để có thể đánh giá hiệu quả cho mô hình một cách trực quan, chúng tôi đã xây
dựng một giao diện để người dùng có thể kiểm tra kết quả nhận dạng biển báo được có
đúng với biển báo thực tế.
Mô hình được chúng tôi huấn luyện từ phần trước được sử dụng để xác định biển
báo được đưa vào. Ảnh được đưa vào sẽ được thay đổi kích thước phù hợp với mô hình
đã huấn luyện. Kết quả sau khi đưa ảnh đi qua mô hình sẽ cho ra một vector kích thước
1x43 thể hiện cho số lớp của tập dữ liệu. Từ vector nhận được, máy tính có thể cho biế
đầu vào là biển báo gì bằng cách trả về một giá trị trong khoảng (0,42) đại diện cho lớp
của biển báo.

Bảng 12. Đánh giá kết quả

Bảng 13. Kết luận

You might also like