Professional Documents
Culture Documents
I. INTRODUCTION
F ACE phát hiện và căn chỉnh là điều cần thiết cho nhiều khuôn mặt
các ứng dụng, chẳng hạn như nhận dạng khuôn mặt và biểu hiện trên khuôn mặt
phân tích. Tuy nhiên, các biến thể hình ảnh lớn của khuôn mặt, chẳng hạn như
khớp cắn, các biến thể tư thế lớn và ánh sáng cực mạnh, áp đặt
những thách thức lớn đối với các nhiệm vụ này trong các ứng dụng trong thế giới thực.
sử dụng các tính năng Haar-Like và AdaBoost để đào tạo các bộ phân loại theo tầng, giúp đạt được hiệu
suất tốt với hiệu quả theo thời gian thực. Tuy nhiên, khá nhiều công trình [1], [3], [4] chỉ ra rằng
loại máy dò này có thể xuống cấp đáng kể trong thế giới thực
các ứng dụng với các biến thể hình ảnh lớn hơn của khuôn mặt người thậm chí
với nhiều tính năng và bộ phân loại nâng cao hơn. Bên cạnh cấu trúc tầng, Mathias et al. [5] - [7] giới
thiệu bộ phận có thể biến dạng
mô hình để nhận diện khuôn mặt và đạt được hiệu suất đáng kể.
yêu cầu chú thích đắt tiền trong giai đoạn đào tạo. Gần đây,
mạng nơ-ron phức hợp (CNN) đạt được những tiến bộ đáng kể trong nhiều nhiệm vụ thị giác máy tính,
chẳng hạn như hình ảnh
phân loại [9] và nhận dạng khuôn mặt [10]. Lấy cảm hứng từ những thành công đáng kể của phương
pháp học sâu trong các nhiệm vụ thị giác máy tính, một số nghiên cứu sử dụng CNN sâu để nhận diện
khuôn mặt.
Yang và cộng sự. [11] đào tạo các CNN chuyên sâu về nhận dạng thuộc tính khuôn mặt để có được phản
hồi cao ở các vùng khuôn mặt, hơn thế nữa
mang lại cửa sổ ứng cử viên của các khuôn mặt. Tuy nhiên, do cấu trúc CNN phức tạp, cách tiếp cận này
tốn kém thời gian trong thực tế.
Li và cộng sự. [19] sử dụng CNN xếp tầng để phát hiện khuôn mặt, nhưng nó yêu cầu hiệu chuẩn hộp
giới hạn từ nhận diện khuôn mặt với chi phí tính toán bổ sung và bỏ qua mối tương quan vốn có giữa
bản địa hóa các mốc khuôn mặt và hộp giới hạn
hồi quy
Căn chỉnh khuôn mặt cũng thu hút sự quan tâm nghiên cứu rộng rãi. Các công trình nghiên cứu trong
lĩnh vực này có thể được chia đại khái thành hai loại, phương pháp dựa trên hồi quy [12], [13], [16] và
khuôn mẫu
các phương pháp tiếp cận phù hợp [7], [14], [15]. Gần đây, Zhang et al. [22]
đề xuất sử dụng nhận dạng thuộc tính khuôn mặt như một nhiệm vụ phụ trợ
để nâng cao hiệu suất căn chỉnh khuôn mặt bằng cách sử dụng CNN sâu.
Tuy nhiên, hầu hết các tính năng nhận diện khuôn mặt và căn chỉnh khuôn mặt trước đây
các phương pháp bỏ qua mối tương quan vốn có giữa hai nhiệm vụ này.
Mặc dù một số công trình hiện có cố gắng cùng nhau giải quyết chúng,
vẫn còn những hạn chế trong các tác phẩm này. Ví dụ, Chen
et al. [18] cùng tiến hành căn chỉnh và phát hiện ngẫu nhiên
rừng sử dụng các tính năng chênh lệch giá trị pixel. Tuy nhiên, các tính năng thủ công này hạn chế hiệu
suất của nó rất nhiều. Zhang và cộng sự. [20] sử dụng
đa nhiệm CNN để cải thiện độ chính xác của nhận diện khuôn mặt đa nhiệm, nhưng việc thu hồi phát
hiện bị giới hạn bởi phát hiện ban đầu
Mặt khác, khai thác các mẫu cứng trong đào tạo là rất quan trọng
để tăng cường sức mạnh của máy dò. Tuy nhiên, truyền thống khó
khai thác mẫu thường thực hiện theo cách ngoại tuyến,
làm tăng đáng kể các hoạt động thủ công. Nó là mong muốn
thiết kế một phương pháp khai thác mẫu cứng trực tuyến để phát hiện khuôn mặt,
tự động thích ứng với tình trạng đào tạo hiện tại.
Trong thư này, chúng tôi đề xuất một khuôn khổ mới để tích hợp những
hai nhiệm vụ sử dụng CNN xếp tầng thống nhất bằng cách học đa nhiệm.
Các CNN được đề xuất bao gồm ba giai đoạn. Trong giai đoạn đầu tiên, nó
tạo ra các cửa sổ ứng viên một cách nhanh chóng thông qua CNN nông.
Sau đó, nó tinh chỉnh các cửa sổ bằng cách từ chối một số lượng lớn
cửa sổ nonfaces thông qua CNN phức tạp hơn. Cuối cùng, nó
sử dụng CNN mạnh mẽ hơn để tinh chỉnh lại kết quả và đầu ra
năm vị trí mốc trên khuôn mặt. Nhờ việc học đa nhiệm này
được cải thiện. Những đóng góp chính của bức thư này được tóm tắt
như sau: