Nhận dạng biển báo giao thông

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA ĐIỆN TỬ
*****
BÀI TẬP LỚN

Môn: Kỹ Thuật Nhận Dạng
ĐỀ TÀI:
Giảng viên hướng dẫn: Nguyễn Thị Thu
Sinh viên thực hiện: Nguyễn Đức Duy 2017602420
Nguyễn Văn Ba 2017602150
Trần Văn Nam 2017602170
Bùi Thế Mạnh 2017602142
Nguyễn Hải Hưng 2017603033
Hà Nội - 2020
1
MỤC LỤC
MỤC LỤC....................................................................................................1
DANH MỤC TỪ VIẾT TẮT.....................................................................3
DANH MỤC HÌNH ẢNH...........................................................................4
LỜI MỞ ĐẦU..............................................................................................5
1. Tình hình nghiên cứu trong và ngoài nước [1]; [2]; [3].......................6
1.1. Tình hình nghiên cứu trong nước.......................................................6
1.2. Tình hình nghiên cứu ngoài nước [4]................................................7
2. Nô ̣i dung đề tài nghiên cứu....................................................................7
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH VÀ NHẬN DẠNG...8
1.1. Tổng quan về xử lý ảnh.......................................................................8
1.1.1. Khái niệm về xử lý ảnh.....................................................................8
1.1.2. Các bước cơ bản trong xử lý ảnh [6]...............................................8
1.2. Một số khái niệm cơ bản về ảnh.......................................................10
1.2.1. Ảnh và điểm ảnh.............................................................................10
1.2.2. Mức xám..........................................................................................10
1.2.3. Độ phân giải của ảnh......................................................................10
1.2.4. Ngưỡng.............................................................................................11
1.3. Các bài toán thường gặp trong xử lý ảnh........................................12
1.3.1. Khử nhiễu........................................................................................12
1.3.2. Trích chọn đặc điểm.......................................................................12
1.3.3. Nhận dạng........................................................................................12
CHƯƠNG 2. ỨNG DỤNG XỬ LÝ ẢNH VÀ PHƯƠNG PHÁP

2
SUPPORT VECTOR MACHINE TRONG BÀI TOÁN PHÁT
HIỆN VÀ PHÂN LỚP BIỂN BÁO GIAO THÔNG ĐƯỜNG BỘ. 14
2.1. Tổng quan về hệ thống phát hiện và phân lớp biển báo giao thông
...............................................................................................................14
2.2. Phát hiện biển báo bằng thuật toán xử lý ảnh.................................15
2.3. Rút trích đặc trưng HOG..................................................................18
2.4. Thuật toán Support Vector Machine...............................................21
2.4.1. Phân lớp tuyến tính (Linear classifier) [7]....................................21
(2.16)...................................................................................................24
(2.17)....................................................................................................24
(2.18)...........................................................................................................24
2.4.2. Phân lớp phi tuyến (Nonlinear classifier).....................................26
2.5. Kết luận chương.................................................................................27
CHƯƠNG 3. THIẾT KẾ VÀ XÂY DỰNG CHƯƠNG TRÌNH..........28
3.1. Công cụ lập trình...............................................................................28
3.2. Nguồn dữ liệu.....................................................................................28
3.3. Xây dựng mô hình SVM....................................................................29
3.4. Kết luận chương.................................................................................29
KẾT LUẬN ĐỀ TÀI.................................................................................31
TÀI LIỆU THAM KHẢO..........................................................................32

3
DANH MỤC TỪ VIẾT TẮT
STT Chữ viết tắt Chữ viết đầy đủ

1 SVM Support Vector Machine
6 HOG Histogram of Oriented Gradient
4
DANH MỤC HÌNH ẢNH
Hình 1.1. Các mục đích chính của xử lý ảnh............................................8
Hình 1.2. Các giai đoạn cơ bản của chương trình xử lý ảnh...................9
Hình 1.3. Ảnh gốc (trái) và ảnh sau phân ngưỡng (phải)......................11
Hình 2.1. Quy trình tổng quát của quá trình phát hiện và phân loại
biển báo......................................................................................................14
Hình 2.2. Ảnh RGB và ảnh HSV.............................................................17
Hình 2.3. Ảnh đen - trắng.........................................................................17
Hình 2.4. Phát hiện vùng ứng viên dựa vào tọa độ đó để cắt được hình
ảnh của biển báo trên hình ảnh RGB ban đầu.......................................18
Hình 2.5. Tách hai phân lớp tuyến tính với một mặt siêu phẳng.........22
Hình 2.6. Tách hai phân lớp tuyến tính với hai mặt siêu phẳng...........23
Hình 2.7. Ví dụ minh họa về độ lớn của lề (margin)..............................24
Hình 2.8. Minh họa các mẫu được gọi là Support Vector.....................26
Hình 3.1. Các biển báo cần nhận dạng....................................................29
Hình 3.2. Triển khai mô hình SVM........................................................29

5
LỜI MỞ ĐẦU
Trong những năm gần đây trên thế giới, đi cùng với sự phát triển của
quy mô sản xuất là sự bùng nổ trong nghiên cứu và phát triển các hệ thống
robot di động tự trị (autonomous mobile robot) có khả năng ứng dụng được
vào những công việc khác nhau trong kho bãi, nhà xưởng. Robot di động là
một máy tự động có khả năng di chuyển đến đích trong một môi trường nào
đó. Đây là điều khác với các robot công nghiệp (như tay máy có khớp quay và
đầu kẹp) được gắn với một không gian cố định. Khởi đầu bằng các xe vận tải
tự động AGV (autonomous guided vehicles) đã được ứng dụng rất thành công
trong công nghiệp, các robot di động thông minh hiện nay vẫn đang trong thời
kỳ phát triển và được coi là có tiềm năng rất lớn trong tương lai gần. Các tiến
bộ công nghệ mới trong việc phát triển các thiết bị cảm biến (sensor) và khả
năng tính toán của các hệ xử lý đã thúc đẩy mức độ tự trị trong sự vận hành
các robot di động. Mặt khác, những đòi hỏi ứng dụng của robot di động trong
các môi trường khác như dịch vụ, giải trí, y tế, an ninh, quân sự cũng hứa hẹn
có những tiến bộ quan trọng trong quá trình thiết kế và phát triển các hệ thống
này.
Không kể hoạt động của các bộ phận gắn trên robot di động, bài toán dẫn
đường cho sự di chuyển của đế robot từ một điểm xuất phát tới đích một cách
an toàn, được gọi tắt là “điều hướng cho robot di động”, là bài toán chính yếu
trong các nghiên cứu về robot di động hiện nay. Không khác nhiều so với
hành vi của con người trong việc điều hướng, muốn giải quyết được bài toán
này thì robot phải tự xác định được vị trí của mình trong môi trường
(positioning), xác lập được bản đồ môi trường nếu cần thiết (mapping), vạch
ra được quỹ đạo đi tới đích (path planning) và xuất ra cách thức điều khiển đi
trên quỹ đạo (path control) và tránh vật cản (obstacle avoidance) trên đường
đi. Để làm được điều đó, một hệ thống điều hướng của robot di động thông
thường có thể chia thành 4 khối [1]: hệ thống cảm biến, hệ thống nhận thức,
6
hệ thống lập kế hoạch di chuyển và hệ thống điều khiển động cơ. Robot di
động cảm nhận về môi trường bên ngoài bằng nhiều cảm biến khác nhau gắn
trên nó. Dữ liệu từ cảm biến được hệ thống nhận thức xử lý, kết hợp thành các
thông tin có ý nghĩa. Hệ thống lập kế hoạch di chuyển sẽ sử dụng những
thông tin đó để đưa ra đường đi tối ưu đến vị trí đích. Cuối cùng, cơ cấu chấp
hành là hệ thống động cơ, chịu trách nhiệm đưa chiếc xe di chuyển theo đúng
kế hoạch đã lập ra.
Xe tự hành là một trường hợp đặc biệt của robot tự hành, khi mà môi
trường hoạt động của nó không chỉ gói gọn ở khu vực nhà xưởng (in-door).
Phát triển xe tự hành theo hướng đã nêu có thể giúp chiếc xe hoạt động chính
xác ở các môi trường đó, nơi có rất nhiều vách ngăn, tường bao để các cảm
biến có thể thu thập thông tin. Tuy nhiên, trong môi trường đường phố thực tế
(out-door), chiếc xe cần tuân thủ theo các chỉ dẫn làn đường và biển báo giao
thông, cần nhận biết các đối tượng giao thông khác như xe cộ, người đi đường
một cách chính xác ở khoảng cách an toàn. Do vậy phương pháp kết hợp cảm
biến cho các công việc này trở nên không khả thi. Đây chính là lý do khiến dữ
liệu hình ảnh trở thành một nguồn thông tin vô cùng hữu ích để chiếc xe có
thể thực sự quan sát về môi trường của mình [2] [3].
1. Tình hình nghiên cứu trong và ngoài nước [1]; [2]; [3]
1.1. Tình hình nghiên cứu trong nước
Hiện nay ở Việt Nam, nghiên cứu và phát triển trong lĩnh vực xe tự
hành là một chủ đề vô cùng mới đối với các doanh nghiệp cũng như các
trường đại học, viện nghiên cứu. Tuy nhiên, trong những năm gần đây, nắm
bắt được xu hướng công nghệ của thế giới, tập đoàn công nghệ FPT đã tổ
chức cuộc thi Cuộc đua số, một cuộc thi chuyên sâu về lĩnh vực lập trình ứng
dụng xử lý ảnh, trí tuệ nhân tạo cho xe các hệ thống tự hành. Cuộc thi đã thu
hút được những sinh viên xuất sắc nhất vê công nghệ của những trường đại
học lớn như Học viện kỹ thuật quân sự, Đại học công nghệ - Đại học quốc gia
7
hà nội, Học viện bưu chính viễn thông, Đại học Công nghiệp Hà Nội ,..
1.2. Tình hình nghiên cứu ngoài nước [4]
Hiện nay trên thế giới, có thể nói xe tự hành là một trong những lĩnh vực
tạo được sự quan tâm lớn nhất trong lĩnh vực trí tuệ nhân tạo. Một hệ thống
xe tự hành hoàn chỉnh không chỉ yêu cầu sự chuẩn xác về nền tảng công nghệ
thông tin, mà còn là sự tổng hòa của rất nhiêu lĩnh vực khác nhau như cơ khí,
điện tử và dữ liệu lớn. Các hãng công nghệ lớn nhất thế giới hiện nay như
Google, Tesla, Amazon đều đầu tư rất nhiều chất xám và kinh tế cho những
dự án nghiên cứu và phát triển xe tự hành với mong muốn thay đổi được
tương lai của ngành giao thông đường bộ.
Trong bài toán điều hướng di chuyển của xe tự hành trong môi trường
đường phố thực tế, các phương pháp ứng dụng dữ liệu hình ảnh trong xe tự
hành tập trung vào giải quyết hai bài toán quan trọng: nhận dạng vạch kẻ
đường và nhận dạng biển báo giao thông. Trong bài toán nhận dạng biển báo
giao thông, có một số nghiên cứu về chủ đề này đạt được những kết quả khả
quan. Trong nghiên cứu [4], tác giả sử dụng phương pháp Haar-like kết hợp
thuật toán tăng tốc Adaboost cho việc phát hiện ảnh và sử dụng phương pháp
PCA cho nhiệm vụ phân loại. Phương pháp này đã chứng minh được kết quả
chính xác rất cao.
2. Nô ̣i dung đề tài nghiên cứu
- Nghiên cứu về lĩnh vực xử lý ảnh, ứng dụng các phương pháp xử lý
ảnh kết hợp cùng mô hình phân lớp Support Vector Machine trong công việc
phát hiện và nhận dạng biển báo giao thông đường bộ.
- Triển khai lập trình hệ thống thử nghiệm dựa trên nền tảng ngôn ngữ
lập trình Python và các thư viện hỗ trợ liên quan.
8
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH VÀ NHẬN DẠNG

Trong chương này, nhóm tác giả sẽ trình bày tổng quan về khái niệm
xử lý ảnh, các bước cơ bản trong quá trình xử lý ảnh cũng như các bài toán
phổ biến có thể ứng dụng được trong lĩnh vực này.
1.1. Tổng quan về xử lý ảnh
1.1.1. Khái niệm về xử lý ảnh
Xử lý ảnh là một trong những mảng nghiên cứu quan trọng nhất trong
lĩnh vực thị giác máy tính (Computer Vision), là tiền đề cho nhiều ứng dụng
mới thuộc lĩnh vực này. Hai nhiệm vụ cơ bản của quá trình xử lý ảnh là nâng
cao chất lượng thông tin hình ảnh và xử lý số liệu cung cấp cho các quá trình
khác trong đó có việc ứng dụng thị giác vào điều khiển.
Con người thu nhận thông tin qua các giác quan trong đó thị giác đóng
vai trò quan trọng nhất. Sự phát triển nhanh của phần cứng máy tính, xử lý
ảnh và đồ hoạ đã phát triển mạnh mẽ và ngày càng có nhiều ứng dụng trong
cuộc sống. Xử lý ảnh đóng một vai trò quan trọng trong tương tác người -
máy.
Quá trình xử lý nhận dạng ảnh là một quá trình thao tác nhằm
biến đổi một ảnh đầu vào để cho ra một kết quả mong muốn. Kết quả đầu ra
của một quá trình xử lý ảnh có thể là một ảnh chất lượng tốt hơn hoặc một kết
luận.
Hình 1.1. Các mục đích chính của xử lý ảnh

1.1.2. Các bước cơ bản trong xử lý ảnh [6]
Quá trình xử lý một ảnh đầu vào nhằm thu được một ảnh đầu ra mong
muốn thường phải trải qua rất nhiều bước khác nhau. Các bước cơ bản của
một quá trình xử lý ảnh được thể hiện thông qua hình sau [6]:
9
Hình 1.2. Các giai đoạn cơ bản của chương trình xử lý ảnh
Dựa vào sơ đồ trên, có thể nhận thấy quá trình xử lý ảnh thông qua 5
bước chính:
 Thu nhận ảnh đầu vào: đây là bước đầu tiên trong quá trình xử lý ảnh.
Thực hiện điều này, ta cần có bộ thu ảnh, bộ thu ảnh ở đây có thể là máy chụp
ảnh đơn sắc hay màu, máy quét ảnh, máy quay... Để lấy ra các bức ảnh cần
thiết phục vụ cho quá trình xử lý ảnh.
 Tiền xử lý: ảnh sau khi thu được từ các thiết bị cần được xử lý trước
khi đưa vào phục vụ cho quá trình trích chọn đặc điểm. Quá trình cải thiện về
độ tương phản, khử nhiễu, khôi phục ảnh, nắn chỉnh hình học… Nhằm tăng
chất lượng ảnh và giảm sai số cho việc phân tích bức ảnh sau này.
 Trích chọn đặc trưng: bức ảnh thu được bao gồm nhiều vùng và thành
phần. Trong khi đó ta chỉ cần lấy ra những vùng nhất định để xử lý và lấy ra
kết quả mong muốn. Ví dụ: trích ra vùng chứa biển số xe trong một bức ảnh.
Điều này làm giúp cho việc xử lý ảnh được nhanh hơn, loại bỏ những phần dư
thừa không cần thiết, bức ảnh sẽ được thu gọn tối ưu.
 Hậu xử lý: sau khi có được ảnh tối ưu cần thiết, ảnh sẽ được qua các
quá trình chuyển đổi.
 So sánh, đối chiếu và kết luận: đây là quá trình quan trọng nhất. Ảnh
sẽ được so sánh, đối chiếu với ảnh mẫu trong trường hợp có mẫu so sánh hoặc
dùng phương pháp nội suy đối với trường hợp không có mẫu sẵn để đưa ra
kết luận hay một kết quả nào đó trong bức ảnh đó.
10
1.2. Một số khái niệm cơ bản về ảnh
1.2.1. Ảnh và điểm ảnh
Điểm ảnh (pixel) được xem như là dấu hiệu hay cường độ sáng tại một
tọa độ trong không gian của đối tượng.
Ảnh được xem như là một tập hợp các điểm ảnh, có thể coi ảnh là mảng
số thực hai chiều Im×n , có kích thước m×n bao gồm m×n điểm ảnh, trong đó
mỗi điểm ảnh có một giá trị xác định biểu thị mức xám tại vị trí m×n tương
ứng.
1.2.2. Mức xám
Một điểm ảnh có hai đặc trưng cơ bản là vị trí (x,y) của điểm ảnh và độ
xám của nó. Dưới đây chúng ta xem xét một số khái niệm và thuật ngữ
thường dùng trong xử lý ảnh.
Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số
tại điểm đó. Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256
(mức 256 là mức phổ dụng. Lý do từ kỹ thuật máy tính dùng 1 byte (8 bit) để
biểu diễn mức xám. Mức xám dùng 1 byte biểu diễn: 2 8 = 256 mức, tức là từ
0 đến 255).
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả
2 mức khác nhau. Nói cách khác mỗi điểm ảnh của ảnh nhị phân chỉ có thể là
0 hoặc 1.
Ảnh màu: Trong hệ màu RGB (Red, Blue, Green) để tạo nên thế giới
màu, chúng ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu:
28*3 = 224 ≈ 16,7 triệu màu.
1.2.3. Độ phân giải của ảnh
Độ phân giải của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số
được hiển thị. Khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt
11
người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích
hợp tạo nên một mật độ phân bố, đó chính là độ phân giải và được phân bố
theo trục x và y trong không gian hai chiều.
1.2.4. Ngưỡng
Ngưỡng là một khái niệm quen thuộc trong xử lý ảnh cũng như rất nhiều
giải thuật khác. Ngưỡng được dùng khá hiệu quả trong việc nhận dạng và tìm
biên ảnh. Nó dùng để chỉ một giá trị mà người ta dựa vào để phân hoạch một
tập hợp thành các miền phân biệt. Trong xử lý ảnh các vùng có giá trị thỏa
mãn ngưỡng thường được quy về một giá trị hay nói cách khác là giá trị mức
xám tại điểm xét thỏa mãn điều kiện của ngưỡng sẽ được phân hoạch lại cùng
một vùng, các vùng không thỏa mãn sẽ được phân hoạch vào vùng còn lại.
Giá trị ngưỡng thường được xác định dựa vào những điểm đặc biệt hoặc
dựa vào kinh nghiệm khảo sát. Nếu dựa vào số lượng ngưỡng áp dụng cho
cùng một tập dữ liệu người ta sẽ phân ra các phương pháp ứng dụng ngưỡng
đơn, ngưỡng kép, hay đa ngưỡng. Nếu dựa vào sự biến thiên của giá trị
ngưỡng, trong cùng phạm vi ứng dụng người ta sẽ phân ra các phương pháp
dùng ngưỡng cố định và không cố định. Ngưỡng không cố định nghĩa là giá
trị của nó sẽ thay đổi tùy theo sự biến thiên của tập dữ liệu theo không gian và
thời gian. Thông thường giá trị này được xác định thông qua khảo sát tập dữ
liệu bằng phương pháp thống kê.
Hình 1.3. Ảnh gốc (trái) và ảnh sau phân ngưỡng (phải)
Xét ví dụ như hình 1.3, ảnh gốc là một ảnh grayscale có giá trị mức xám
của các điểm ảnh nằm trong khoảng từ 0-255, với giá trị ngưỡng là 127, các
12
điểm ảnh nào có giá trị lớn hơn ngưỡng ta cho nó thành màu đen (0), ngược
lại là trắng (1) và cho ảnh kết quả.
1.3. Các bài toán thường gặp trong xử lý ảnh
1.3.1. Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh:
● Nhiễu hệ thống: nhiễu có quy luật và có thể khử bằng các phép biến
đổi.
● Nhiễu ngẫu nhiên: nhiễu không rõ nguyên nhân, điều này được khắc
phục bằng các phép lọc.
1.3.2. Trích chọn đặc điểm
Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận
dạng trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau
đây:
● Đặc điểm không gian: Phân bổ mức xám, phân bổ xác suất, phân bổ
biên độ.
● Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (zonal filtering). Các bộ vùng được gọi là mặt nạ đặc trưng
(feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam
giác, cung tròn v.v..).
● Đặc điểm biên và đường biên: đặc trưng cho đường biên của đối
tượng và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được
dùng khi nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ
toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero
crossing),...
● Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các
đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ
giảm xuống.
1.3.3. Nhận dạng
13
Nhận dạng tự động mô tả đối tượng, phân loại và phân nhóm các mẫu là
những vấn đề quan trọng trong thị giác máy tính, được ứng dụng trong nhiều
ngành khoa học khác nhau. Quá trình nhận dạng thường đi kèm với mẫu. Mẫu
có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết,
khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói. Khi biết một mẫu nào đó,
để nhận dạng hoặc phân loại mẫu đó, ta có thể làm theo hai hướng:
 Phân loại có mẫu: chẳng hạn phân tích phân biệt trong đó mẫu đầu
vào được định danh như một thành phần của một lớp đã xác định, khi đó ta
chỉ cần so sánh đối tượng đầu vào với mẫu để đưa ra kết luận.
 Phân loại không có mẫu: trong đó các mẫu được gán vào các lớp khác
nhau dựa trên một tiêu chuẩn đồng dạng nào đó. Các lớp này cho đến thời
điểm phân loại vẫn chưa biết hay chưa được định danh. Việc giải quyết bài
toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không
chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc
độ tính toán. Đặc điểm chung của tất cả những ứng dụng đó là cần nhiều
những đặc trưng cần thiết, không thể do chuyên gia đề xuất mà phải được
trích chọn dựa trên các thủ tục phân tích dữ liệu.
14
CHƯƠNG 2. ỨNG DỤNG XỬ LÝ ẢNH VÀ PHƯƠNG PHÁP
SUPPORT VECTOR MACHINE TRONG BÀI TOÁN PHÁT HIỆN VÀ
PHÂN LỚP BIỂN BÁO GIAO THÔNG ĐƯỜNG BỘ
Trong chương này, nhóm tác giả sẽ trình bày tổng quan về các khái
niệm liên quan đến phương pháp phân loại sử dụng thuật toán Support Vector
Machine (SVM). Thêm nữa, chúng tôi sẽ trình bày về phương pháp phát hiện
và phân lớp biển báo giao thông đường bộ ứng dụng xử lý ảnh và SVM.
2.1. Tổng quan về hệ thống phát hiện và phân lớp biển báo giao
thông
Quy trình xử lý tổng quát của phương pháp được trình bày như trong
hình 2.1.
Hình 2.1. Quy trình tổng quát của quá trình phát hiện và phân loại biển
báo
Đầu tiên, ảnh đầu vào thu được từ camera sẽ được áp dụng các phương
pháp phân đoạn để loại bỏ nền, làm nổi bật các đối tượng có thể là biển báo.
Tiếp theo, biên của các đối tượng này sẽ được xử lý lọc kích thước và phân
tích hình dáng để chọn ra các vùng ứng viên có thể là biển báo giao thông.
Sau đó, các vùng ứng viên sẽ được rút trích đặc trưng HOG, các đặc trưng
này sẽ được đưa qua mô hình SVM đã được huấn luyện trước đó để nhận
dạng, đưa ra kết quả cuối cùng về phân lớp của biển báo này.
15
Nhìn chung, hệ thống có thể chia làm hai quá trình lớn:
 Phát hiện biển báo trong khung hình sử dụng các thuật toán xử lý ảnh.
 Phân lớp biển báo phát hiện được bằng mô hình SVM.
2.2. Phát hiện biển báo bằng thuật toán xử lý ảnh
a. Phân đoạn ảnh

Phân đoạn ảnh là một trong những bước chính yếu của quá trình phát
hiện và phân loại biển báo giao thông, với rất nhiều tham số khác nhau cần
chỉnh định và chọn lựa. Các biển báo trong tập dữ liệu nghiên cứu của chúng
tôi được chia thành hai nhóm chính, đó là các biển báo cấm với màu đỏ đóng
vai trò chủ đạo, và biển báo chỉ dẫn với màu sắc chủ đạo là màu xanh. Dựa
vào các đặc điểm đó chúng tôi tiến hành phân đoạn ảnh dựa trên hai màu này.
Trước khi tiến hành các phương pháp phân đoạn, chúng tôi thực hiện quá
trình cân bằng histogram để điều chỉnh độ tương phản của hình ảnh, loại bỏ
các khu vực quá sáng hoặc quá tối để làm sạch hình ảnh.
Hình ảnh kết quả của quá trình cân bằng histogram sẽ được chuyển
đổi từ không gian màu RGB sang không gian màu HSV bằng các công thức
(2.1), (2.2), (2.3). Trong đó, R là thành phần đỏ (Red), G là xanh lục (Green),
B là xanh lam (Blue) trong không gian màu RGB, và H là thành phần màu sắc
(Hue), S là độ bão hòa (Saturation), V là độ sáng (Value) trong không gian
màu HSV.




 H   if B  G


 H  360   if B  G

   G B 
  R   
  2 2

  cos  
1
  R  G  B  RG  RB  GB
2 2 2

 

  
(2.1)
16
V  0.2126 R  0.7152G  0.0722 B (2.2)

S  max( R, G, B )  min( R, G , B) (2.3)
Sau khi chuyển ảnh sang không gian màu HSV, chúng tôi xác định
các giới hạn trên và dưới của các mặt nạ (mask) trong không gian màu này để
lọc ra các vùng ảnh có xuất hiện màu đỏ và màu xanh. Thông số chi tiết của
các mặt nạ được thể hiện dưới dạng véc-tơ [H, S, V] được biểu diễn ở hình
dưới.
Các ngưỡng của mặt nạ cho màu đỏ và màu xanh dương :
Màu đỏ:
 Lower mask 1 value: [0,70,60]
 Upper mask 1 value: [10,255,255]
 Lower mask 2 value: [170,70,60]
 Upper mask 2 value: [180,255,255]
Màu xanh dương:
 Lower mask values: [94,127,20]
 Upper mask values: [126,255,200]
Các vùng ảnh có các giá trị phù hợp với các thông số của mặt nạ được
thể hiện trong ảnh đen trắng với giá trị 1 (màu trắng), các vùng ảnh còn lại
được thể hiện với giá trị 0 (màu đen). Hình 2.2, 2.3 lần lượt là các ảnh RGB,
HSV và đen trắng thể hiện các bước trong quá trình phân đoạn hình ảnh dựa
trên màu sắc
17
Hình 2.2. Ảnh RGB và ảnh HSV
Hình 2.3. Ảnh đen - trắng

b. Phát hiện vùng ứng viên
Hình ảnh kết quả từ quá trình xử lý trên được được cung cấp cho hàm
findContours() của thư viện OpenCV để dò tìm các đường viền (contour) xuất
hiện trong ảnh. Mặc dù kích thước của vùng ứng viên biển báo giao thông
thực sự có tỷ lệ w/h (chiều rộng/chiều cao) xấp xỉ 1 nhưng khi truy xuất các
khung hình từ camera của xe, tỉ lệ này sẽ thay đổi tùy theo khoảng cách, thời
gian và góc nhìn.Tùy theo góc nhìn mà có thể chiều cao sẽ lớn hơn chiều rộng
và ngược lại. Thực nghiệm cho thấy tỷ lệ phù hợp cho các vùng ứng viên với
các góc nhìn khác nhau thỏa mãn w/h < 1/3 và h/w < 1/7. Vì vậy, sau khi trích
được các vùng ứng viên, chúng tôi sử dụng ràng buộc tỷ lệ chiều rộng w và
chiều cao h thỏa w/h < 1/3 và h/w < 1/7 để chọn các vùng ứng viên thực sự.
18
Hình 2.4. Phát hiện vùng ứng viên dựa vào tọa độ đó để cắt được hình
ảnh của biển báo trên hình ảnh RGB ban đầu.
2.3. Rút trích đặc trưng HOG
a. Tổng quan về đặc trưng HOG
HOG, viết tắt của Histogram of Oriented Gradient là một phương
pháp giúp trừu tượng hóa đối tượng bằng cách trích xuất ra những đặc trưng
của đối tượng đó và bỏ đi những thông tin không hữu ích. Vì vậy, HOG được
sử dụng chủ yếu để mô tả hình dạng và sự xuất hiện của một đối tượng trong
ảnh.
Bản chất của phương pháp HOG là sử dụng thông tin về sự phân bố
của các cường độ gradient (intensity gradient) hoặc của hướng biên (edge
directions) để mô tả các đối tượng cục bộ trong ảnh. Các toán tử HOG được
cài đặt bằng cách chia nhỏ một bức ảnh thành các vùng được gọi là cells, và
với mỗi cell, ta sẽ tính toán một histogram về các hướng của gradients cho các
điểm nằm trong cell. Ghép các histogram lại với nhau ta sẽ có một biểu diễn
cho bức ảnh ban đầu. Để tăng cường hiệu năng nhận dạng, các histogram cục
bộ có thể được chuẩn hóa về độ tương phản bằng cách tính một ngưỡng
cường độ trong một vùng lớn hơn cell, gọi là các khối (blocks) và sử dụng giá
trị ngưỡng đó để chuẩn hóa tất cả các cell trong khối. Kết quả sau bước chuẩn
hóa sẽ là một vector đặc trưng có tính bất biến cao hơn đối với các thay đổi về
điều kiện ánh sáng.
Theo [trích dẫn], đặc trưng HOG cho phép miêu tả tốt các loại biển
19
báo giao thông có hình dạng khác nhau. Vì vậy trong nghiên cứu này chúng
tôi sử dụng đặc trưng HOG để rút trích các đặc trưng của biển báo trên những
vùng ứng viên đã được tìm ra ở phần trước để phục vụ cho thao tác nhận
dạng.
b. Quy trình rút trích đặc trưng HOG trên ảnh
Bước 1: Tính cường độ và hướng biến thiên tại mỗi pixel theo công
thức (2.4), (2.5).
Cường độ: G  I x2  I y2 (2.4)

arctan I x
Hướng:  (2.5)
Iy
Trong đó, Ix và Iy là giá trị pixel (x, y).

Bước 2: Phân chia ảnh
Chia ảnh đầu ra ở bước trên thành nhiều khối (block), mỗi khối có số
cell bằng nhau, mỗi cell có số pixels bằng nhau. Số khối được tính bằng công
thức (2.6). Trong đó, W image, H image , W block , H block , W cell , H cell
lần lượt là chiều rộng, chiều cao của ảnh, khối và ô.
W  Wblock * Wcell   H image  H block  H cell 

nblock / image   image *  1 (2.6)
 Wcell   H cell 
Bước 3: Tính vectơ đặc trưng cho từng khối

Sau khi xác định số block và kích thước mỗi block, cell,
để tính toán vector đặc trưng cho từng cell, chúng ta cần:
 Chia không gian hướng thành p bin(số chiều vector đặc trưng
của ô).
 Rời rạc hóa góc hướng nghiêng tại mỗi điểm ảnh vào trong các
bin với độ lớn α(x,y).
Trường hợp rời rạc hóa unsigned-HOG với p=9:
20
 p *  ( x, y ) 
B ( x, y )  round   mod p (2.7)
  
Trường hợp rời rạc hóa signed-HOG với p=18:

 p *  ( x, y ) 
B ( x, y )  round   mod p (2.8)
 2 
Giá trị bin được định lượng bởi tổng cường độ biến thiên của các
pixels thuộc về bin đó. Sau khi tính toán đặc trưng ô, ta sẽ nối các vector đặc
trưng ô để thu được vector đặc trưng khối. Số chiều vector đặc trưng khối tính
theo công thức :
sizeblock  n * sizecell (2.9)
Trong đó, n cells là số ô trong khối và size feature/cell là số chiều
vectơ đặc trưng của ô bằng 9 (unsigned-HOG) hoặc 18 (signed-HOG).
Bước 4: Chuẩn hóa khối
Để tăng cường hiệu năng nhận dạng, các histogram cục bộ sẽ được
chuẩn hóa về độ tương phản bằng cách tính một ngưỡng cường độ trong một
khối và sử dụng giá trị đó để chuẩn hóa tất cả các ô trong khối. Kết quả sau
bước chuẩn hóa sẽ là một vector đặc trưng có tính bất biến cao hơn đối với
các thay đổi về điều kiện ánh sáng.
Có nhiều phương pháp có thể được dùng để chuẩn hóa khối. v là vectơ
đặc trưng ban đầu của khối, vk là k-norm của v(k = 1, 2), e là hằng số nhỏ..
Khi đó, các giá trị chuẩn hóa có thể tính bằng một trong những công thức sau:
v
L2-norm: f  (2.10)
v22  e2
v
L1-norm: f  (2.11)
(v1  e)
21
v
L1-sqrt: f  (2.12)
(v1  e)
Ghép các vector đặc trưng khối sẽ thu được vector đặc trưng HOG cho
ảnh. Số chiều vector đặc trưng ảnh tính theo công thức với n là số khối của
hình ảnh, size block là số chiều của vectơ đặc trưng khối:
sizeimage  n * sizeblock (2.13)
c. Áp dụng quy trình rút trích đặc trưng HOG trên vùng ảnh ứng viên
Mỗi vùng ảnh ứng viên ở giai đoạn trước được đưa về kích thước
32x32 và tiến hành các bước rút trích đặc trưng HOG. Cụ thể, vùng ảnh đó
được chia thành 49 khối, mỗi khối chứa 2*2 cell, mỗi cell chứa 4*4 pixels. Số
chiều vectơ đặc trưng tại mỗi ô là 9 (sử dụng 9 bin) và số chiều vectơ đặc
trưng mỗi khối là: 9x2x2 = 36 chiều (vì mỗi khối có 2x2 ô). Do đó, số chiều
vectơ đặc trưng của ảnh là 49x36 = 1764 chiều.
Tất cả các hình ảnh của các vùng ứng viên sau khi trải qua quá trình
rút trích đặc trưng HOG sẽ được đưa vào mô hình SVM đã được huấn luyện
để thực hiện việc dự đoán.
2.4. Thuật toán Support Vector Machine
Support Vector Machine (SVM) là phương pháp phân lớp dựa trên lý
thuyết thống kê của Vapnik và Alexei Chervonenkis xây dựng vào năm 1960
và được sử dụng nhiều trong các ứng dụng nhận dạng chữ viết tay, nhận dạng
khuôn mặt, phân loại tài liệu, tin sinh học…So với các phương pháp phân loại
khác, khả năng phân loại của SVM là tương đương hoặc tốt hơn đáng kể [5].
Trong luận văn, nhóm nghiên cứu đã biểu diễn biển báo giao thông nguy
hiểm dưới dạng vector và áp dụng phương pháp phân loại SVM để phân loại
các biển báo giao thông nguy hiểm.
2.4.1. Phân lớp tuyến tính (Linear classifier) [7]
Ý tưởng của thuật toán SVM là xây dựng một mô hình để phân loại
22
một đối tượng có thuộc hay không thuộc vào nhóm đối tượng cần quan tâm.
Thuật toán SVM sẽ biểu diễn các điểm trong không gian và xác định ranh
giới giữa hai nhóm đối tượng sao cho khoảng cách giữa tập dữ liệu được huấn
luyện tới ranh giới là xa nhất có thể.
Tiến hành xét một bài toán đơn giản là tách hai lớp với tập dữ liệu
mẫu đã được huấn luyện. Và sau đó ta có thể mở rộng phương pháp cho nhiều
trường hợp tổng quát mà dữ liệu thậm chí không thể tách được phân lớp.
Với xi , i = 1, 2 ,.., N là tập các vector đặc trưng của bộ huấn luyện X.
Và nó sẽ thuộc về một trong hai lớp w1,w2 và được giả sử rằng tập dữ liệu sẽ
được phân lớp tuyến tính. Với mục tiêu là sẽ xây dựng mặt siêu
phẳng(hyperplane) để tách chính xác các phân lớp mẫu được huấn luyện được
cho bởi phương trình sau:
Với phương trình (2.21) ta sẽ xác định được mặt siêu phẳng theo như
mô tả trong hình 2.10. Trong trường hợp này mặt siêu phẳng là đường thẳng
đậm đen liền nét tách hai phân lớp tuyến tính. Mặt siêu phẳng giúp dễ dàng
tách được hai phân lớp w1 ,w2 . Tuy nhiên trong thực tế mặt siêu phẳng sẽ có
nhiều hơn một như trong hình 2.11, ở đây ta có thể dựng được hai mặt siêu
phẳng được đánh dấu lần lượt là h1 và h2. Vấn đề cần giải quyết được đặt ra
là sẽ chọn mặt siêu phẳng nào để dùng làm ranh giới tách hai phân lớp dữ
liệu.
Hình 2.5. Tách hai phân lớp tuyến tính với một mặt siêu phẳng.
23
Hình 2.6. Tách hai phân lớp tuyến tính với hai mặt siêu phẳng
Trong trường hợp hình 2.6 thuật toán SVM sẽ xác định mặt siêu phẳng
dùng để tách phân lớp dựa theo khoảng cách cực đại giữa hai mẫu dữ liệu đã
được huấn luyện. Theo hình 2.11 có thể dễ dàng thấy được khoảng cách z 2 >
z 1 do đó mặt siêu phẳng h2 sẽ được SVM chọn dùng làm ranh giới để tách
hai bộ phân lớp. Và khoảng cách cực đại này còn được gọi là lề (margin), mặt
siêu phẳng này còn được gọi là mặt siêu phẳng lề tối đa.
Độ lớn của lề (margin) được cho như sau:
(2.14)
Từ phương trình (2.21) khi thay đổi w và w0 hướng và khoảng cách từ

gốc tọa độ tới mặt siêu phẳng. Bộ phân loại SVM được định nghĩa như sau:
(2.15)
Nếu f(x) = +1 thì x thuộc về phân lớp đang cần quan tâm, và ngược lại
nếu f(x)= -1 thì x thuộc về lớp khác.
Phương pháp SVM là tập các mặt siêu phẳng phụ thuộc vào các tham
24
số w và w0 . Mục tiêu của phương pháp SVM là ước lượng hai giá trị này để
có thể cực đại hóa lề(margin). Với giá trị của lề càng lớn thì mặt siêu phẳng
phân lớp càng tốt. Theo hình 2.12 thấy được với độ lớn của lề nhỏ hơn thì khả
năng cho kết quả sai sẽ cao hơn:
Hình 2.7. Ví dụ minh họa về độ lớn của lề (margin)

Nếu tập dữ liệu huấn luyện là khả tách tuyến tính ta có các ràng buộc
sau:
(2.16)
(2.17)
Phương pháp có thể tìm được giá trị w và w0 để xây dựng được mặt
siêu phẳng lề tối ưu là phải giải bài toán tối ưu toàn phương (Quadratic
Programming).
Cực đại hóa:
(2.18)
Với các ràng buộc sau:

25
(2.19)
Trong đó các hệ số Lagrange
(2.20)
là các biến số cần phải tối ưu hóa.
Vector w sẽ được tính từ các nghiệm của bài toán toàn phương như sau:
(2.21)
Để xác định độ dịch w 0 , ta chọn xi sao cho ai >= 0, sau đó sử dụng

điều kiện Karush-Kuhn-Tucker (KKT) như sau:
(2.22)
Với ai là những mẫu nằm gần mặt siêu phẳng nhất và được gọi là các
vector hỗ trợ (Support Vector). Theo hình 2.13 những mẫu được gọi là
Support Vector là các mẫu xanh hoặc đỏ được khoanh tròn và nằm trên mặt
siêu phẳng hỗ trợ (do dấu của bất đẳng thức bằng +1 nếu đây là mẫu cần quan
tâm và bằng -1
với các mẫu còn
lại).
26
Hình 2.8. Minh họa các mẫu được gọi là Support Vector.
2.4.2. Phân lớp phi tuyến (Nonlinear classifier)
Thực tế trong trường hợp tổng quát, mặt phân hoạch có thể là một mặt
phi tuyến bất kì (Hình 2.14). Và ta chỉ cần ánh xạ vector dữ liệu vào không
gian đặc trưng có số chiều cao hơn nhiều.
Ví dụ theo hình 2.14 giả sử các mẫu x i thuộc không gian Rn , không
gian này được gọi là không gian giả thiết (hypothesis space). Để tìm mặt phi
tuyến trong không gian này, ta ánh xạ các vector mẫu xi từ Rn vào một không
gian Rd có số chiều lớn hơn (d > n, d có thể bằng ∞). Rd được gọi là không
gia đặc trưng (feature space). Sau đó áp dụng phương pháp SVM tuyến tính
để tìm ra một siêu phẳng phân hoạch trong không gian đặc trưng R d . Siêu
phẳng này sẽ là ứng với mặt phi tuyến trong không gian Rd .
Hình 2.9. Một mặt phân chia phi tuyến có thể trở thành một siêu phẳng
trong không gian lớn hơn
Trong không gian đặc trưng (feature space) này, các điểm dữ liệu trở
thành khả tách tuyến tính, hoặc có thể phân tích với ít lỗi hơn so với trường
hợp sử dụng không gian ban đầu. Khi đó, bài toán quy hoạch toàn phương
ban đầu trở thành như sau:
27
Cực đại hóa:
(2.24)
với các ràng buộc sau:
(2.25)
(2.26)
Trong đó k là một hàm nhân (kernel function) thỏa mãn:
(2.27)
Bằng cách chọn một hàm nhân phù hợp, ta sẽ xây dựng được nhiều bộ
phân loại khác nhau.
2.5. Kết luận chương
Trong chương này, nhóm tác giả trình bày phương pháp tổng quán quá
trình nhận dạng và phân lớp biển báo giao thông, đồng thời nhóm cũng nêu ra
những cơ sở lý thuyết về phương pháp trích xuất đặc trưng HOG và thuật toán
gSupport Vector Machine.
28
CHƯƠNG 3. THIẾT KẾ VÀ XÂY DỰNG CHƯƠNG TRÌNH

Trong chương này, nhóm tác giả sẽ trình bày về các công cụ lập trình,
cấu trúc bộ dữ liệu phục vụ cho quá trình huấn luyện thuật toán và cách thức
xây dựng mô hình SVM. Bên cạnh đó, quá trình huấn luyện và đánh giá mô
hình SVM cũng được đề cập.
3.1. Công cụ lập trình
Chương trình được viết bằng ngôn ngữ lập trình Python cùng với sự hỗ
trợ của bộ thư viện OpenCV của Intel cho nhiệm vụ xử lý hình ảnh, thư viện
Scikit-learn cho nhiệm vụ xây dựng mô hình học máy.
3.2. Nguồn dữ liệu
Biển báo giao thông ở Việt Nam được chia thành 5 nhóm : Nhóm biển
chỉ dẫn, nhóm biển hiệu lệnh, nhóm biển báo cấm, nhóm biển báo nguy hiểm,
nhóm biển phụ. Trong khuôn khổ nghiên cứu này, nhóm tác giả tiến hành
phân loại 12 loại biển báo (hình 3.1). Bộ ảnh huấn luyện được trích từ nghiên
cứu [18] với số lượng ảnh như sau:
 Ảnh không xuất hiện biển báo: 125
 Biển dừng: 90
 Biển rẽ trái trước đường giao nhau: 32
 Biển rẽ phải trước đường giao nhau: 112
 Biển cấm rẽ trái: 260
 Biển cấm rẽ phải: 15
 Biển đường một chiều: 369
 Biển hạn chế tốc độ tối đa 40 km/h: 236
 Biển hạn chế tốc độ tối thiểu 30 km/h: 53
 Biển rẽ phải sau đường giao nhau: 111
 Biển cấm vượt: 22
 Biển hết quãng đường hạn chế tốc độ tối thiểu 30km/h: 21
29
 Biển rẽ trái sau đường giao nhau: 34
Hình 3.1. Các biển báo cần nhận dạng

3.3. Xây dựng mô hình SVM
Nhóm tác giả thực hiện xây dựng mô hình SVM với sự trợ giúp của thư
viện Scikit-learn, bộ thư viện chuyên dụng triển khai các thuật toán Machine
Learning. Các tham số lựa chọn của mô hình do nhóm tác giả lựa chọn sau
nhiều lần thử nghiệm và đánh giá kết quả huấn luyện:
- C: 12.5
- Gamma: 0.50625
- Kernel: RBF
Hình 3.2. Triển khai mô hình SVM

3.4. Kết luận chương
Trong chưong này, nhóm tác giả đã trình bày chi tiết về quá trình xây
dựng ứng dụng phân loại biển báo giao thông sử dụng phương pháp Support
Vector Machine. Kết quả cho thấy mô hình đã hoạt động, tuy nhiên độ chính
xác chưa cao, cần phải cải thiện thêm.
30
31
KẾT LUẬN ĐỀ TÀI

Đề tài nghiên cứu thuật toán trong nhận dạng và xử lý ảnh, áp dụng vào
bài toán nhận dạng các biển báo giao thông đường bộ tại Việt Nam. Hệ thống
đáp ứng được yêu cầu về việc phát hiện và nhận dạng chính xác biển báo để
đưa ra thông báo hỗ trợ cho tài xế có thể xử lý các tình huống nguy hiểm kịp
thời. Đây là hướng nghiên cứu còn mới cả ở Việt Nam và thế giới. Trên thế
giới các hệ thống với mục đích tương tự hiện vẫn đang được nghiên cứu và
thử nghiệm, đặc biệt với các trung tâm nghiên cứu của các hãng chế tạo ô tô
như Toyota, Ford thì hệ thống vẫn chưa đưa ra thương mại hóa. Với các hệ
thống biển báo giữa các quốc gia vẫn có nhiều điểm khác nhau, bên cạnh đó
số lượng đề tài nghiên cứu về vấn đề này tại Việt Nam vẫn chưa nhiều. Dựa
theo các bài báo khoa học được công bố trình bày về vấn đề này thì nhóm
nghiên cứu có những nét riêng trong quá trình phát hiện và nhận dạng biển
báo giao thông.
Tuy nhiên, với thời gian nghiên cứu cho phép và lượng kiến thức của
nhóm giới hạn, nên đề tài dừng lại ở việc nghiên cứu và còn nhiều vấn đề cần
phải giải quyết, tiêu biểu nhất là số lượng biển báo giao thông nhóm nhận
dạng được còn ít, và tỉ lệ nhận dạng nhầm còn cao.
Song song đó thì các yếu tố khách quan về các biển báo giao thông trong
thực tế tại Việt Nam cũng là một khó khăn rất lớn, ảnh hướng nhiều đến quá
trình phát hiện và nhận dạng của thuật toán. Nhóm sẽ cố gắng cải thiện và sẽ
cải tiến đề tài trong tương lai. Xin chân thành cảm ơn và rất mong nhận được
lời nhận xét từ quý thầy cô.
32
TÀI LIỆU THAM KHẢO
1. Takacs, Arpad & Rudas, Imre & Bosl, Dominik & Haidegger, Tamas.
(2018). Highly Automated Vehicles and Self-Driving Cars [Industry
Tutorial]. IEEE Robotics & Automation Magazine. 25. 106-112.
10.1109/MRA.2018.2874301.
2. Treml, M., et al.: Speeding up Semantic Segmentation for Autonomous
Driving. Proceedings of the Conference on Neural Information
Processing Systems (NIPS), Barcelona, Spain, 1–7 (2016).
3. Yuan, Chang & Chen, Hui & Liu, Ju & Zhu, Di & Xu, Yanyan, Robust
Lane Detection for Complicated Road Environment Based on Normal
Map. IEEE Access. PP. 1-1. 10.1109/ACCESS.2018.2868976, 2018.
4. Nguyễn Văn Long,“Tìm hiểu và đề xuất phương pháp nhận dạng và
phân loại biển báo giao thông ở Việt Nam”, Luận văn Thạc sĩ, Đại học
Duy Tân, 2016, tr 33-83.
5. Hà Thị Kim Duyên, Lê Mạnh Long, Nguyễn Đức Duy, Phan Sỹ Thuần,
Nguyễn Ngọc Hải, Nguyễn Thị Tú Uyên, “NGHIÊN CỨU VÀ PHÁT
TRIỂN HỆ THỐNG XE TỰ HÀNH ỨNG DỤNG TRÍ TUỆ NHÂN
TẠO”, hội nghị HAUI tổ chức vào tháng 6/2020.
6. Hiep Do Quang, Tien Ngo Manh, Cuong Nguyen Manh, Dung Pham
Tien, Manh Tran Van, Kiem Nguyen Tien, Duy Nguyen Duc, “An
Approach to Design Navigation System for Omnidirectional Mobile
Robot Based on ROS” , 2020 3rd International Conference on Control,
Robotics and Informatics (ICCRI 2020) .
7. Van Nguyen Thi Thanh, Tien Ngo Manh, Cuong Nguyen Manh, Dung
Pham Tien, Manh Tran Van, Duyen Ha Thi Kim, Duy Nguyen Duc,
“Autonomous Navigation for Omnidirectional Robot Based on Deep
Reinforcement Learning”, 2020 3rd International Conference on
Control, Robotics and Informatics (ICCRI 2020) .
33
8. Maître, Henri. (2013). Image Processing: Overview and Perspectives.
Intelligent Video Surveillance Systems. 1-12.
10.1002/9781118577851.ch1.
9. Mishra, Manish & Srivastava, Monika. (2014). A view of Artificial
Neural Network. 1-3. 10.1109/ICAETR.2014.7012785.
10. O'Shea, Keiron & Nash, Ryan. (2015). An Introduction to
Convolutional Neural Networks. ArXiv e-prints.
11. Saadna, Yassmina & Behloul, Ali. (2017). An overview of traffic sign
detection and classification methods. International Journal of Multimedia
Information Retrieval. 6. 1-18. 10.1007/s13735-017-0129-8.
12.Roh, Yuji & Heo, Geon & Whang, Steven. (2019). A Survey on Data
Collection for Machine Learning: A Big Data - AI Integration
Perspective. IEEE Transactions on Knowledge and Data Engineering.
PP. 1-1. 10.1109/TKDE.2019.2946162.
13.Bojarski, Mariusz & Testa, Davide & Dworakowski, Daniel & Firner,
Bernhard & Flepp, Beat & Goyal, Prasoon & Jackel, Larry & Monfort,
Mathew & Muller, Urs & Zhang, Jiakai & Zhang, Xin & Zhao, Jake &
Zieba, Karol. (2016). End to End Learning for Self-Driving Cars.
14. Botchkarev, Alexei. (2018). Performance Metrics (Error Measures) in
Machine Learning Regression, Forecasting and Prognostics: Properties
and Typology.
15.Kingma, Diederik & Ba, Jimmy. (2014). Adam: A Method for Stochastic
Optimization. International Conference on Learning Representations.
16. Quigley, Morgan & Conley, Ken & Gerkey, Brian & Faust, Josh &
Foote, Tully & Leibs, Jeremy & Wheeler, Rob & Ng, Andrew. (2009).
ROS: an open-source Robot Operating System. ICRA Workshop on
Open Source Software. 3.
17.Stallkamp, Johannes & Schlipsing, Marc & Salmen, Jan & Igel,
34
Christian. (2012). Man vs. computer: Benchmarking machine learning
algorithms for traffic sign recognition. Neural networks : the official
journal of the International Neural Network Society. 32. 323-32.
10.1016/j.neunet.2012.02.016.
18.Stallkamp, Johannes & Schlipsing, Marc & Salmen, Jan & Igel,
Christian. (2011). The German Traffic Sign Recognition Benchmark: A
multi-class classification competition. Proceedings of the International
Joint Conference on Neural Networks. 1453 - 1460.
10.1109/IJCNN.2011.6033395.

Nhận dạng biển báo giao thông

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Nhận dạng biển báo giao thông

Uploaded by

Copyright:

Available Formats

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

BÀI TẬP LỚN

Sinh viên thực hiện: Nguyễn Đức Duy 2017602420

Nguyễn Văn Ba 2017602150

Trần Văn Nam 2017602170

Bùi Thế Mạnh 2017602142

Nguyễn Hải Hưng 2017603033

DANH MỤC TỪ VIẾT TẮT.....................................................................3

DANH MỤC HÌNH ẢNH...........................................................................4

1.1. Tình hình nghiên cứu trong nước.......................................................6

1.2. Tình hình nghiên cứu ngoài nước [4]................................................7

2. Nô ̣i dung đề tài nghiên cứu....................................................................7

CHƯƠNG 1. CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH VÀ NHẬN DẠNG...8

1.1. Tổng quan về xử lý ảnh.......................................................................8

1.1.1. Khái niệm về xử lý ảnh.....................................................................8

1.1.2. Các bước cơ bản trong xử lý ảnh [6]...............................................8

1.2. Một số khái niệm cơ bản về ảnh.......................................................10

1.2.1. Ảnh và điểm ảnh.............................................................................10

1.2.2. Mức xám..........................................................................................10

1.2.3. Độ phân giải của ảnh......................................................................10

1.3. Các bài toán thường gặp trong xử lý ảnh........................................12

1.3.1. Khử nhiễu........................................................................................12

1.3.2. Trích chọn đặc điểm.......................................................................12

1.3.3. Nhận dạng........................................................................................12

CHƯƠNG 2. ỨNG DỤNG XỬ LÝ ẢNH VÀ PHƯƠNG PHÁP

2.2. Phát hiện biển báo bằng thuật toán xử lý ảnh.................................15

2.3. Rút trích đặc trưng HOG..................................................................18

2.4. Thuật toán Support Vector Machine...............................................21

2.4.1. Phân lớp tuyến tính (Linear classifier) [7]....................................21

2.4.2. Phân lớp phi tuyến (Nonlinear classifier).....................................26

2.5. Kết luận chương.................................................................................27

CHƯƠNG 3. THIẾT KẾ VÀ XÂY DỰNG CHƯƠNG TRÌNH..........28

3.1. Công cụ lập trình...............................................................................28

3.2. Nguồn dữ liệu.....................................................................................28

3.3. Xây dựng mô hình SVM....................................................................29

3.4. Kết luận chương.................................................................................29

KẾT LUẬN ĐỀ TÀI.................................................................................31

TÀI LIỆU THAM KHẢO..........................................................................32

STT Chữ viết tắt Chữ viết đầy đủ

Hình 1.1. Các mục đích chính của xử lý ảnh............................................8

Hình 2.2. Ảnh RGB và ảnh HSV.............................................................17

Hình 2.3. Ảnh đen - trắng.........................................................................17

Hình 2.7. Ví dụ minh họa về độ lớn của lề (margin)..............................24

Hình 3.1. Các biển báo cần nhận dạng....................................................29

Hình 3.2. Triển khai mô hình SVM........................................................29

CHƯƠNG 1. CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH VÀ NHẬN DẠNG

Hình 1.1. Các mục đích chính của xử lý ảnh

a. Phân đoạn ảnh

V  0.2126 R  0.7152G  0.0722 B (2.2)

Hình 2.2. Ảnh RGB và ảnh HSV

Hình 2.3. Ảnh đen - trắng

Cường độ: G  I x2  I y2 (2.4)

Trong đó, Ix và Iy là giá trị pixel (x, y).

W  Wblock * Wcell   H image  H block  H cell 

Bước 3: Tính vectơ đặc trưng cho từng khối

Trường hợp rời rạc hóa signed-HOG với p=18:

Từ phương trình (2.21) khi thay đổi w và w0 hướng và khoảng cách từ

Hình 2.7. Ví dụ minh họa về độ lớn của lề (margin)

Với các ràng buộc sau:

Trong đó các hệ số Lagrange

Để xác định độ dịch w 0 , ta chọn xi sao cho ai >= 0, sau đó sử dụng

với các ràng buộc sau:

Trong đó k là một hàm nhân (kernel function) thỏa mãn: