You are on page 1of 3

Tóm tắt — Việc phát hiện và căn chỉnh khuôn mặt trong môi trường không bị hạn chế

là một thách thức


do các tư thế, ánh sáng và khớp cắn khác nhau. Trong thư này, chúng tôi đề xuất một khuôn khổ đa
nhiệm xếp tầng sâu khai thác mối tương quan vốn có giữa phát hiện và liên kết để tăng hiệu suất của
chúng. Đặc biệt, khuôn khổ của chúng tôi thúc đẩy một kiến trúc xếp tầng với ba giai đoạn của mạng
phức hợp sâu được thiết kế cẩn thận để dự đoán vị trí khuôn mặt và mốc một cách tổng thể. Ngoài ra,
chúng tôi đề xuất một chiến lược khai thác mẫu cứng trực tuyến mới giúp cải thiện hơn nữa hiệu suất
trong thực tế. Phương pháp của chúng tôi đạt được độ chính xác vượt trội so với tiêu chuẩn công nghệ
tiên tiến nhất và tiêu chuẩn WIDER FACE để nhận diện khuôn mặt và các mốc trên khuôn mặt được chú
thích trong tiêu chuẩn hoang dã để căn chỉnh khuôn mặt, trong khi vẫn giữ hiệu suất theo thời gian
thực. Điều khoản chỉ mục — Mạng nơ-ron phức hợp xếp tầng (CNN), căn chỉnh khuôn mặt, nhận diện
khuôn mặt

I. INTRODUCTION

F ACE phát hiện và căn chỉnh là điều cần thiết cho nhiều khuôn mặt

các ứng dụng, chẳng hạn như nhận dạng khuôn mặt và biểu hiện trên khuôn mặt

phân tích. Tuy nhiên, các biến thể hình ảnh lớn của khuôn mặt, chẳng hạn như

khớp cắn, các biến thể tư thế lớn và ánh sáng cực mạnh, áp đặt

những thách thức lớn đối với các nhiệm vụ này trong các ứng dụng trong thế giới thực.

Máy dò khuôn mặt theo tầng do Viola và Jones đề xuất [2]

sử dụng các tính năng Haar-Like và AdaBoost để đào tạo các bộ phân loại theo tầng, giúp đạt được hiệu
suất tốt với hiệu quả theo thời gian thực. Tuy nhiên, khá nhiều công trình [1], [3], [4] chỉ ra rằng

loại máy dò này có thể xuống cấp đáng kể trong thế giới thực

các ứng dụng với các biến thể hình ảnh lớn hơn của khuôn mặt người thậm chí

với nhiều tính năng và bộ phân loại nâng cao hơn. Bên cạnh cấu trúc tầng, Mathias et al. [5] - [7] giới
thiệu bộ phận có thể biến dạng

mô hình để nhận diện khuôn mặt và đạt được hiệu suất đáng kể.

Tuy nhiên, chúng đắt về mặt tính toán và thường có thể

yêu cầu chú thích đắt tiền trong giai đoạn đào tạo. Gần đây,

mạng nơ-ron phức hợp (CNN) đạt được những tiến bộ đáng kể trong nhiều nhiệm vụ thị giác máy tính,
chẳng hạn như hình ảnh

phân loại [9] và nhận dạng khuôn mặt [10]. Lấy cảm hứng từ những thành công đáng kể của phương
pháp học sâu trong các nhiệm vụ thị giác máy tính, một số nghiên cứu sử dụng CNN sâu để nhận diện
khuôn mặt.

Yang và cộng sự. [11] đào tạo các CNN chuyên sâu về nhận dạng thuộc tính khuôn mặt để có được phản
hồi cao ở các vùng khuôn mặt, hơn thế nữa
mang lại cửa sổ ứng cử viên của các khuôn mặt. Tuy nhiên, do cấu trúc CNN phức tạp, cách tiếp cận này
tốn kém thời gian trong thực tế.

Li và cộng sự. [19] sử dụng CNN xếp tầng để phát hiện khuôn mặt, nhưng nó yêu cầu hiệu chuẩn hộp
giới hạn từ nhận diện khuôn mặt với chi phí tính toán bổ sung và bỏ qua mối tương quan vốn có giữa
bản địa hóa các mốc khuôn mặt và hộp giới hạn

hồi quy

Căn chỉnh khuôn mặt cũng thu hút sự quan tâm nghiên cứu rộng rãi. Các công trình nghiên cứu trong
lĩnh vực này có thể được chia đại khái thành hai loại, phương pháp dựa trên hồi quy [12], [13], [16] và
khuôn mẫu

các phương pháp tiếp cận phù hợp [7], [14], [15]. Gần đây, Zhang et al. [22]

đề xuất sử dụng nhận dạng thuộc tính khuôn mặt như một nhiệm vụ phụ trợ

để nâng cao hiệu suất căn chỉnh khuôn mặt bằng cách sử dụng CNN sâu.

Tuy nhiên, hầu hết các tính năng nhận diện khuôn mặt và căn chỉnh khuôn mặt trước đây

các phương pháp bỏ qua mối tương quan vốn có giữa hai nhiệm vụ này.

Mặc dù một số công trình hiện có cố gắng cùng nhau giải quyết chúng,

vẫn còn những hạn chế trong các tác phẩm này. Ví dụ, Chen

et al. [18] cùng tiến hành căn chỉnh và phát hiện ngẫu nhiên

rừng sử dụng các tính năng chênh lệch giá trị pixel. Tuy nhiên, các tính năng thủ công này hạn chế hiệu
suất của nó rất nhiều. Zhang và cộng sự. [20] sử dụng

đa nhiệm CNN để cải thiện độ chính xác của nhận diện khuôn mặt đa nhiệm, nhưng việc thu hồi phát
hiện bị giới hạn bởi phát hiện ban đầu

cửa sổ do máy dò mặt yếu tạo ra.

Mặt khác, khai thác các mẫu cứng trong đào tạo là rất quan trọng

để tăng cường sức mạnh của máy dò. Tuy nhiên, truyền thống khó

khai thác mẫu thường thực hiện theo cách ngoại tuyến,

làm tăng đáng kể các hoạt động thủ công. Nó là mong muốn

thiết kế một phương pháp khai thác mẫu cứng trực tuyến để phát hiện khuôn mặt,

tự động thích ứng với tình trạng đào tạo hiện tại.

Trong thư này, chúng tôi đề xuất một khuôn khổ mới để tích hợp những

hai nhiệm vụ sử dụng CNN xếp tầng thống nhất bằng cách học đa nhiệm.
Các CNN được đề xuất bao gồm ba giai đoạn. Trong giai đoạn đầu tiên, nó

tạo ra các cửa sổ ứng viên một cách nhanh chóng thông qua CNN nông.

Sau đó, nó tinh chỉnh các cửa sổ bằng cách từ chối một số lượng lớn

cửa sổ nonfaces thông qua CNN phức tạp hơn. Cuối cùng, nó

sử dụng CNN mạnh mẽ hơn để tinh chỉnh lại kết quả và đầu ra

năm vị trí mốc trên khuôn mặt. Nhờ việc học đa nhiệm này

khung, hiệu suất của thuật toán có thể đáng chú ý

được cải thiện. Những đóng góp chính của bức thư này được tóm tắt

như sau:

You might also like