You are on page 1of 6

Có hai cách để phát hiện nhiều khuôn mặt trong một bức ảnh:

Chia ảnh thành N vùng và phát hiện khuôn mặt trong mỗi vùng
Sử dụng hộp gợi ý để trượt trên hình ảnh để phát hiện khuôn mặt
MTCNN sử dụng phương pháp thứ hai, sử dụng hộp gợi ý của mạng P trượt liên tục trên ảnh gốc để dò
tìm khuôn mặt, nhưng do kích thước hộp gợi ý của mạng P là cố định nên chỉ có thể dò tìm khuôn mặt
trong phạm vi 12 * 12. Không thể phát hiện các khuôn mặt lớn hơn, vì vậy khái niệm kim tự tháp hình
ảnh được đưa ra .
————————————————
P-Net(Proposal Network)

1. Thông qua 10 tích chập 3 * 3 , tính năng gộp tối đa 3 * 3(Max Pooling) (bước
= 2), 10 bản đồ tính năng 5 * 5 được tạo
2. Thông qua 16 tích chập 3 * 3 , 16 bản đồ tính năng 3 * 3 được tạo
3. Thông qua 32 tích chập 3 * 3 , 32 bản đồ tính năng 1 * 1 được tạo ra.
4. Đối với 32 bản đồ tính năng 1 * 1,

-sử dụng 2 tích chập 1 * 1 * 32 để tạo 2 bản đồ tính năng 1 * 1*2 để phân loại

-sử dụng 4 tích chập 1 * 1 * 32 để tạo 4 bản đồ tính năng 1 * 1 *4 được sử dụng
để đánh giá khung hồi quy;

-sử dụng10 tích chập 1 * 1 * 32 được sử dụng để tạo ra 10 bản đồ đặc trưng 1
* 1 *10 để đưa ra vị trí của 5 điểm chính của khuôn mặt

Tổng cộng có 3 lớp tích chập 3x3, lớp đầu tiên sử dụng tính năng gộp (MP)và cuối cùng thu
được bản đồ tính năng kích thước 1x1x32

(conv 3x3 : là lớp tích chập; MP 3x3: là lớp gộp)

3、R-Net(Refine Network)

 Đầu tiên, sử dụng tích chập 3x3 với kích thước bước là 1;
 Sau đó sử dụng lớp gộp 3x3, kích thước bước là 2;
 Tiếp theo, sử dụng tích chập 3x3 với kích thước bước là 1;
 Sau đó sử dụng lớp gộp 3x3, kích thước bước là 2;
 Tiếp tục, sử dụng tích chập 2x2 ;
 Cuối cùng theo sau là một lớp được kết nối đầy đủ.
Vì kích thước đầu vào của mạng R là cố định và đầu vào là kết quả của quá trình xử lý mạng
P, không có vấn đề gì khi thay đổi kết nối đầy đủ thành tích chập đầy đủ . Mạng R lớn hơn
mạng P, có nhiều trọng số hơn và độ chính xác cao hơn. 

O-Net(Output Network)

Cho kết quả của quá trình xử lý mạng R với mạng O. Mạng O sử dụng bốn lớp tích chập và ba
lớp gộp, lớn hơn mạng R. Cuối cùng, xuất ra một mức độ tin cậy và hai điểm tọa độ (bốn giá trị).
TRAINING(thêm)

Chúng tôi tận dụng ba nhiệm vụ: Phân biệt FACE/NOFACE, hồi quy hộp giới

hạn và cố định hóa mốc khuôn mặt .


-> Chi tiết 3 Công thức tính Loss calculation cho mỗi giai đoạn:

You might also like