Professional Documents
Culture Documents
KHOA HỌC CÔNG NGHỆ HÀNG HẢI KHOA HỌC - CÔNG NGHỆ
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY
PHÁT HIỆN NGƯỜI ĐEO KHẨU TRANG TRONG THỜI GIAN THỰC
REAL TIME FACE MASK DETECTION
ĐỖ THỊ CHANG1, NGUYỄN KHẮC KHIÊM2, TRẦN SINH BIÊN1*
1
Khoa Điện - Điện tử, Trường Đại học Hàng hải Việt Nam
2
Trường Đại học Hàng hải Việt Nam
*
Email liên hệ: transinhbien@vimaru.edu.vn
SỐ 66 (4-2021) 83
TẠP CHÍ ISSN: 1859-316X
trang, hệ thống sẽ tự động gửi tin nhắn tới các cơ quan sáng của bức ảnh cũng làm ảnh hưởng tới chất lượng
có thẩm quyền đề giải quyết. tạo mô hình sau này.
Trong phạm vi nghiên cứu của bài báo, nhóm tác
giả sẽ tiến hành phát hiện người không đeo khẩu trang
cũng dựa trên mạng nơ ron tích chập, nhưng thay vì gửi
thông tin tới cơ quan giám sát thì hệ thống sẽ đưa ra
cảnh báo, trực tiếp nhắc nhở người dân thực hiện đúng
việc đeo khẩu trang nơi công cộng bằng giọng nói.
Cấu trúc chương trình gồm 3 bước được thể hiện
trên Hình 1.
84 SỐ 64 (4-2021)
TẠP CHÍ ISSN: 1859-316X
KHOA HỌC CÔNG NGHỆ HÀNG HẢI KHOA HỌC - CÔNG NGHỆ
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY
2.2.2. Xử lý tiền dữ liệu và xử lý dữ liệu Bảng 1. Các lớp Layer trong mô hình
Việc tiền xử lý dữ liệu nhằm đưa tất cả các ảnh về
cùng kích thước, sau đó các ảnh này sẽ được chuyển
đổi để phục vụ cho quá trình xử lý ảnh ở bước sau.
2.2.3. Xây dựng các lớp cho mô hình
Các lớp được xây dựng dựa trên mô hình mạng
nơron tích chập CNN (mạng nơron tích chập được
thiết kế đặc biệt để xử lý dữ liệu đầu vào). Kiến trúc
của CNN có ba phần chính:
a) Một lớp phức hợp trích xuất các đặc trưng từ
một hình ảnh nguồn. Để trích xuất đặc tính từ ảnh ban
đầu, ta tiến hành tích chập hai ma trận bao gồm ma
trận ảnh nguồn và bộ lọc với kích thước 3x3. Giả sử,
Ma trận ảnh đầu vào có kích thước là H1 x W1 x D (H
= height, W = width, D = dimension) và bộ lọc
(kernel) là H2 x W2 x D thì ma trận đặc điểm ảnh sẽ 2.2.4. Biên dịch mô hình
được xác định theo công thức:
Thực hiện các thuật toán tối ưu và biên dịch
𝐻1−𝐻2+2𝑃 𝑊1−𝑊2+2𝑃
( + 1) × ( + 1) × 𝐾 (1) chương trình. Để tối ưu mô hình, nhóm tác giả đã sử
𝑆 𝑆
dụng thuật toán Adam [8] vì yêu cầu ít bộ nhớ, các
Trong đó: K là số bộ lọc;
tham số được biến thiên một cách hiệu quả và ít phải
P là bước đệm; điều chỉnh.
S là bước nhảy của bộ lọc.
2.3. Thuật toán phát hiện người đeo khẩu trang
b) Một lớp tổng hợp để giảm kích thước của nơron trong thời gian thực
đi và tập trung vào các phần tử quan trọng nhất. Trong
phần này ta sử dụng lớp pooling có kích thước (2x2)
và sử dụng kiểu max pooling hay lấy giá trị lớn nhất.
c) Một lớp được kết nối đầy đủ làm phẳng các đối
tượng được xác định trong các lớp trước đó thành một
vectơ và dự đoán xác suất mà hình ảnh có thể thuộc
về nhãn nào đó.
SỐ 66 (4-2021) 85
TẠP CHÍ ISSN: 1859-316X
Để phát hiện khuôn mặt, nhóm tác giả sử dụng Chương trình đã thực hiện kiểm tra trong nhiều
thuật toán phát hiện khuôn mặt Viola-Jones [9] giống điều kiện khác nhau, bao gồm cả những hình ảnh
như trong chương trình thu thập dữ liệu. khuôn mặt được hiển thị trên điện thoại thì vẫn cho ra
Sau khi ảnh được cắt từ video, nó sẽ được định kết quả khá chính xác như Hình 8 và Hình 9.
dạng lại kích thước giống với kích thước của dữ liệu
trong mô hình huấn luyện. Sau đó, ảnh này sẽ được
chuyển đổi thành những tham số có định dạnh giống
mô hình mẫu. Khi đó các tham số sinh ra được từ tập
dữ liệu huấn luyện sẽ được sử dụng để thẩm định lại
tính thích hợp của mô hình trên tập dữ liệu của hình
ảnh vừa được trích xuất. Dựa vào kết quả thu được ta
Hình 8. Kết quả khi phát hiện khẩu trang với
tiến hành hiển thị lên màn hình kết quả người dân có
khuôn mặt người trên điện thoại
đeo khẩu trang hay không. Nếu người đó không đeo
khẩu trang thì sẽ lập tức nhắc nhở người đó đeo khẩu
trang thông qua lời nói trực tiếp. Việc nhắc nhở này sẽ
được thực thi nhờ sự hỗ trợ của thư viện “pyttxs3” -
thư viện hỗ trợ chuyển đổi văn bản thành giọng nói
trong python. Thuật toán xây dựng như trong Hình 7.
3. Kết quả
Hình 9. Kết quả khi phát hiện khẩu trang
Sau 2 lần training mô hình, độ chính xác trong thời gian thực
(accuracy) của mô hình đã đạt tới 98,28%, độ mất mát
(loss) giảm còn 5,88%. Hình 6 và 7 cho thấy dạng đồ
Tuy nhiên, khi điều kiện ánh sáng kém việc phát
thị của độ chính xác và sự mất mát của mô hình.
hiện khẩu trang vẫn chưa thực sự hiệu quả. Chương
trình chưa phân biệt được người đeo khẩu trang hay
không khi không phát hiện được mặt của chủ thể.
Để đảm bảo tính khách quan, nhóm tác giả cũng
đồng thời xây dựng mô hình huấn luyện khác với tập
dữ liệu công cộng từ nguồn [10]. Nhóm tác giả chỉ
trích xuất lấy lượng dữ liệu với số lượng 500 ảnh
người đeo khẩu trang và 500 ảnh người không đeo
khẩu trang từ nguồn dữ liệu công cộng. Độ chính xác
của mô hình dựa trên tập dữ liệu trích xuất này cũng
lên tới 94,53%, độ mất mát giảm còn 12,39% sau 50
epochs. Kết quả này cũng được biểu diễn trên biểu đồ
đường như Hình 10 và 11.
Hình 6. Đồ thị độ chính xác của mô hình
86 SỐ 64 (4-2021)
TẠP CHÍ ISSN: 1859-316X
KHOA HỌC CÔNG NGHỆ HÀNG HẢI KHOA HỌC - CÔNG NGHỆ
JOURNAL OF MARINE SCIENCE AND TECHNOLOGY
SỐ 66 (4-2021) 87